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将 这 种 强大 的 工具 解释 得 清晰 透彻 。 书 中 贯穿 了 大 量 简 洁 明 了 的 示例 ， 旨 在 让 读者 轻松 擎 握 正 














则 表达 式 。 此 外 ， 书 中 各 在 线 和 桌面 工具 一 应 俱全 ， 并 介绍 











的 正则 表达 式 入 门 好 书 。 
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本 书 通过 示例 介绍 如 何 编写 正则 表达 式 ， 旨 在 让 读者 轻松 掌握 正则 表达 式 。 事 实 上 ， 
笔者 几乎 将 所 涉及 的 每 一 个 概念 都 通过 示例 展示 了 出 来 ， 读 者 很 容易 模仿 尝试 。 


正则 表达 式 有 助 于 找到 文本 字符 串 中 的 各 种 模式 。 更 确切 地 说 ， 正 则 表达 式 是 经 过 
专门 编写 的 文本 字符 串 ， 用 来 匹配 字符 串 〈 尤 其 是 文件 内 字符 串 ) 集合 中 符合 该 模 
式 的 所 有 字符 串 。 


正则 表达 式 最 早出 现 于 美国 数学 家 斯 蒂 苍 ， 克 菜 尼 编 写 的 Introduction to Metamathematics 
一 书 中 (1952 年 Van Nostrand 公司 出 版 )。 但 其 实 这 个 概念 早 在 20 世纪 40 年 代 初 
就 已 形成 。 到 了 70 年 代 ， 随 着 Unix 操作 系统 及 其 实用 程序 sed, grep 等 问世 ， 正 
则 表达 式 得 到 了 计算 机 科学 家 更 为 广泛 的 使 用 。Unix 操作 系统 是 美国 电话 电报 公司 
下 属 贝 尔 实验 室 的 Brian Kernighan、Dennis Ritchie、Ken Thompson 以 及 其 他 工作 
人 员 的 杰作 。 


据 我 所 知 ， 最 早出 现 正 则 表达 式 的 计算 机 应 用 程序 是 QED 编辑 器 。QED 是 Quick 
Editor 的 缩写 ， 它 是 为 运行 在 Scientific Data Systems 公司 : SDS 940 计算 机 中 
的 Berkeley Timesharing System 编 写 HJ, 1970 年 的 记录 显示 QED 是 由 Ken 
Thompson 在 之 前 MIT 的 Compatible Time-Sharing System 中 另外 一 个 编辑 器 基础 
上 重 写 而 成 的 。 从 此 ， 计 算 技术 领域 有 了 真正 的 正则 表达 式 实现 。( 附 录 中 的 表 A-1 
列 出 了 QED 的 正则 表达 式 特性 。) 
































iE 1: Scientific Data Systems (英文 缩写 SDS), A Max Palevsky 于 1961 年 在 美国 成 立 的 一 家 计算 机 公司 ， 
也 是 最 早 在 计算 机 设计 中 使 用 集成 电路 和 硅 晶 体 管 的 公司 。SDS 计算 机 主要 针对 大 型 科学 计算 ,物美 
OTHE. "太空 竞赛 "期 间 NASA 曾 购买 了 很 多 台 SDS 计算 机 。SDS 在 1969 年 被 施乐 (Xerox) 公 司 收购 ， 
1975 年 由 于 管理 不 善 和 销售 下 请 被 关闭 。 在 施乐 管理 期 间 ， 该 公司 一 度 被 称 为 XDS。 编者 注 



































本 书 中 用 来 展示 示例 的 工具 很 多 ， 但 多 数 都 容易 获取 ， 而 且 也 很 实用 。 只 有 少数 工 
有 具 目前 还 没有 好 用 的 Windows 版 本 。 如 果 你 觉得 哪个 工具 不 好 用 ， 完 全 可 以 不 用 。 
但 要 真正 学 习 正 则 表达 式 ， 我 还 是 建议 在 Unix 环境 中 学 习 。 我 使 用 Unix 环境 长 达 
25 年 ， 每 天 仍然 能 够 学 到 不 少 新 东西 。 





“不 懂 Unix 的 人 注定 还 要 重新 发 明 一 个 晤 脚 的 Unix。” 
一 一 Henry Spencer ? 


部 分 工具 可 以 通过 浏览 器 在 线 使 用 ， 这 对 于 许多 读者 是 十 分 方便 的 。 甚 余 的 工具 需 
要 使 用 命令 行 和 shell 脚本 ， 还 有 一 些 工具 是 在 桌面 上 运行 的 。 如 果 你 手头 没有 这 些 
工具 ， 从 网 上 下 载 也 很 方便 。 其 中 大 多 数 工 具 是 免费 的 ， 偶 尔 有 需要 付费 的 也 不 贵 。 


本 书 中 不 会 出 现 很 多 专业 术语 。 我 会 在 必要 的 时 候 告 诉 你 正确 的 术语 ， 但 这 种 情况 
很 少 。 因 为 多 年 的 经 验 表 明 ， 专 业 术 语 常 会 造成 障碍 。 换 名 话说， 我 会 尽 可 能 用 通 
俗 易 懂 的 语言 描述 正则 表达 式 ， 以 免 你 党 头 转向 不 知 所 措 。 因 为 本 书 的 理念 是 “ 略 
知 大 概 ， 即 可 实践 ”。 


正则 表达 式 的 实现 多 种 多 样 。 你 会 发 现在 vi (vim). grep 及 sed 等 Unix 命令 行 工 
有 具 中 使 用 的 正则 表达 式 也 可 以 在 其 他 程序 中 见 到 。 各 种 程序 设计 语言 都 支持 正则 表 
达 式 ， 比 如 Perl (2455257), Java, JavaScript, C&, Ruby 46, XE XSLT 2.0 这 样 
的 声明 式 语言 中 也 有 正则 表达 式 。 你 还 会 发 现 Notepad++, Oxygen 及 TextMate 等 
应 用 程序 同样 支持 正则 表达 式 。 


大 多 数 正则 表达 式 实 现 各 有 异同 。 本 书 不 会 逐一 讨论 它们 的 差异 ， 但 也 会 涉及 一 些 。 
如 果 要 我 把 所 有 实现 的 全 部 不 同 点 都 列 出 来 ， 想 怕 非得 把 我 累 吐 了 血 不 行 。 所 以 我 
在 本 书 中 就 不 纠缠 这 些 细节 了 。 总 而 言 之， 如果 你 期 待 一 本 正则 表达 式 的 入 门 书 ， 
那 就 选 这 本 吧 。 
































注 2: Henry Spencer 是 加 拿 大 程序 员 ， 著 名 正则 表达 式 库 regex 的 作者 。 这 个 正则 表达 式 库 被 许多 程序 包 或 
编程 语言 采用 ， 比 如 Perl, Tcl 和 MySQL， 等 等 。 在 多 伦 多 大 学 工作 期 间 ，Henry Spencer 从 1981 年 
开始 运作 美国 之 外 的 第 一 个 Usernet 站 点 。 这 个 站 点 后 来 被 谷歌 收购 ， 作 为 20 世纪 80 年 代 Usernet 
的 公开 档案 。 另 外 ， 他 还 写 过 “10 Commandments for C Programmers" (C EJF R FIR, http://www. 
seebs.net/c/10com.html) 。 一 一 编者 注 

注 3: Perl ,后 来 被 人 们 解释 为 Practical Extraction and Reporting Language 的 缩写 。 由 这 个 非 官 方 的 ”全称 ” 
实用 提取 和 报告 语言 可 知 ，Perl 在 处 理 文本 文件 和 生成 报表 方面 是 非常 强大 的 。1987 年 ，Larry 
Wall 在 美国 宾夕法尼亚 州 蓝 铃 (Blue Bell) 地 区 的 Unisys 公司 当 程 序 员 的 时 候 发 明了 Perl。 在 该 语 
言 后 来 的 发 展 中 ， 正 则 表达 式 功 能 得 到 不 断 丰 富 和 加 强 ， 最 终 成 为 Perl 独树一帜 的 招牌 特色 。 

一 一 编者 注 
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目标 读者 
本 书 适合 从 零 开 始 学 习 正 则 表达 式 的 读者 。 如 果 你 准备 开始 学 习 正 则 表达 式 或 编写 
程序 ， 本 书 就 是 很 好 的 起 点 。 换 名 话说， 所 有 听 说 过 正则 表达 式 且 对 其 非常 感 兴趣 ， 
但 还 没有 真正 理解 正则 表达 式 的 人 ， 都 是 这 本 书 的 目标 读者 。 如 果 你 属于 这 种 情况 ， 
本 书 很 适合 你 。 


我 将 采取 由 简 到 繁 的 顺序 来 介绍 正则 表达 式 的 特性 ， 也 就 是 先 从 简单 的 开始 。 


如 果 你 已 经 对 正则 表达 式 及 其 用 法 有 所 了 解 ， 或 者 已 是 位 编程 老手 ， 本 书 可 能 不 适 
合 你 。 本 书面 向 需要 指导 的 初学 者 。 如 果 你 写 过 一 些 正则 表达 式 ， 但 希望 加 深 对 基 
本 概念 的 理解 ， 也 可 以 阅读 本 书 ， 只 是 我 们 的 市 奏 可 能 比 你 想像 的 要 慢 一 些 。 





























我 在 此 推荐 几 本 学 习 完 本 书后 应 该 阅读 的 书 。 第 一 本 是 Jeff Friedl 的 Mastering Regular 
Expressions, Third Edition (参见 http://shop.oreilly.com/product/9781565922570.do)。 这 本 书 
对 正则 表达 式 进 行 了 全 面 阐述 ， 强 烈 推荐 读者 阅读 。Jan Goyvaerts 和 Steven Levithan 执 
笔 的 Regular Expressions Cookbook (参见 http://shop.oreilly.com/product/9780596520694.do ) 
也 是 一 本 相当 不 错 的 书 “。Jan Goyvaerts 开发 的 RegexBuddy 是 一 个 强大 的 桌面 应 用 (B 
JL http://www.regexbuddy.com), ifij Steven Levithan 开发 了 我 们 第 1 章 就 会 用 到 的 在 线 正 
则 表达 式 处 理 程序 RegexPal (参见 http://www.regexpal.com) 。 


hoy Ln i =. 

阅读 要 求 

为 了 更 好 地 学 习 本 书 ， 你 需要 使 用 Unix 或 Linux 操作 系统 上 的 一 些 工 具 。 这 些 工 
HE Mac 上 的 Darwin 系统 (BSD 在 Mac 上 的 衍生 系统 )、Windows 电脑 中 运行 的 
Cygwin (参见 http://www.cygwin.com 及 http://www.gnu.org) 中 都 能 找 得 到 。 








本 书 提供 了 大 量 示例 供 你 实验 ， 只 是 看 一 遍 印 象 不 会 深刻 。 要 真正 掌握 正则 表达 式 ， 
就 应 该 按照 这 些 示例 的 步骤 自己 操作 ， 最 好 把 所 有 示例 都 过 一 遍 。 最 好 的 学 习 方 式 
是 亲身 实践 ， 而 不 是 做 个 旁观 者 。 你 得 通过 本 书 学 会 使 用 高 亮 显示 匹配 结果 以 验证 
正则 表达 式 的 网 站 、 强 大 的 Unix 命令 行 工具 、 分 析 正 则 表达 式 或 用 正则 表达 式 搜索 
文本 的 桌面 程序 。 


Github 上 托管 着 本 书 的 示例 代码 ( https://github.com/michaeljamesfitzgerald/Introducing- 
Regular-Expressions), 4b, 通过 http://examples.oreilly.com/0636920012337/examples.zip 








TE 4: 这 两 本 书 的 中 文 版 分 别 是 《精通 正则 表达 式 (第 3 版 )》( 电 子 工业 出 版 社 ) 和 《正则 表达 式 经 典 实例 》 
(人 民 邮 电 出 版 社 )。 一 一 编者 注 
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也 可 以 下 载 到 本 书 所 有 的 示例 和 测试 文件 。 学 习 本 书 之 前 ， 你 最 好 先 在 自己 的 计算 
机 上 创建 一 个 新 文件 夹 ， 并 将 这 些 文件 保存 到 该 文件 夹 中 。 
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Books Online 世界 顶级 技术 和 商务 作家 的 专业 作品 。 
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士 开 展 调研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 

对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 
的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, 
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Que, Peachpit Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, 
Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, 
Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology 以 及 
其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari 
Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


排版 约定 


本 书 使 用 的 排版 约定 如 下 。 


。 楷体 
表示 新 的 术语 。 














注 5: 读者 也 可 以 从 图 灵 社 区 本 书 网 页 (http://www.ituring.com.cn/book/955) 随 书 下 载 部 分 下 载 本 书 示例 代 
码 。 编者 注 
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。 等 宽 字 体 


表示 程序 片段 ， 也 用 于 正文 中 表示 程序 中 使 用 的 变量 、 函 数 名 、 命 令 行 代码 、 


境 变 量 、 语 句 和 关键 词 等 代码 文本 。 
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北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
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O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 





表 、 示 例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://oreil.ly/intro_regex 
中 文 版 地 址 : 


http://www.oreilly.com.cn/index.php?func=book&isbn=978-7-115-31149-8 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions @ oreilly.com 


要 了 解 更 多 OReilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : 


http://facebook.com/oreilly 





请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 
我 们 的 YouTube 视频 地 址 如 下 : 


http://www.youtube.com/oreillymedia 


示例 代码 


本 书 就 是 要 帮 读 者 解决 实际 问题 的 。 也 许 你 需要 在 自己 的 程序 或 文档 中 用 到 本 书 中 
的 代码 。 除 非 大 段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 因 此 ， 用 本 书 中 的 
几 段 代码 写成 一 个 程序 不 用 向 我 们 申请 许可 。 但 是 销售 或 者 分 发 O'Reilly 图 书 随 附 
的 代码 光盘 则 必须 事先 获得 授权 。 引 用 书 中 的 代码 来 回答 问题 也 无 需 我 们 授权 。 将 
大 段 的 示例 代码 整合 到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 


使 用 我 们 的 代码 时 ， 和 希望 你 能 标明 它 的 出 处 。 出 处 一 般 要 包含 书 名 、 作 者 、 出 版 商 
FU ISBN, ijin "Introducing Regular Expressions by Michael Fitzgerald (O'Reilly). 
Copyright 2012 Michael Fitzgerald, 978-1-4493-9268-0” , 














如 果 还 有 其 他 使 用 代码 的 情形 需要 与 我 们 沟通 ， 可 以 随时 与 我 们 联系 : permissions 


oreilly.com, 
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第 1 章 


什么 是 正则 表达 式 





正则 表达 式 是 一 种 特殊 的 字符 串 模 式 ， 用 于 匹配 一 组 字符 串 。 它 最 早出 现 于 20 世 
纪 40 年 代 ， 当 时 用 来 描述 正则 语言 ， 而 到 20 世纪 70 年 代 才 真正 出 现在 程序 设计 领 
域 。 据 我 所 知 ， 正 则 表达 式 首次 出 现在 Ken Thompson 编写 的 QED 文本 编辑 器 中 。 


“正则 表达 式 是 描述 一 组 字符 串 特 征 的 模式 ， 用 来 匹配 特定 的 字符 事 。” 

Ken Thompson 
正则 表达 式 后 来 成 为 ed、sed 和 vi (vim) 编辑 器 、grep、AWK 等 Unix 操作 系统 衍 
生出 的 工具 集中 重要 的 组 成 部 分 。 但 这 些 工 具 实 现 正则 表达 式 的 方式 并 不 完全 一 致 。 





va 
: 本 书 使 用 归纳 方式 讲述 ， 也 就 是 说 ,会 从 特例 讲 起 ， 最 终归 结 到 一 般 情 况 。 
p^ 所 以 我 们 不 会 先 陈述 观点 ， 然 后 举例 ， 而 是 先 为 大 家 展示 示例 ， 然 后 归纳 








a 


"^o 出 一 般 性 结论 。 本 书 的 风格 是 “实践 出 真知 ”。 











正则 表达 式 素 以 “ 坑 多 ”而 闻名 ,但 是 这 跟 你 的 学 习 方法 有 关 。 大 家 通常 会 从 下 面 
这 个 简单 的 正则 表达 式 开始 学 习 : 


\d 


一 一 这 是 匹配 0 到 9 TERIA ERE F 28. A S A. — EA eic UR B SECOS A 
WA, 比如 : 


“((\d{3}) |^Na(3) [.-12) 2\d{3}[.-1]?\a{4}s 


这 是 本 章 最 后 才 会 讲 到 的 一 个 还 算 比较 健壮 的 正则 表达 式 ， 它 可 以 匹配 10 位 的 北美 
电话 号 码 。 无 论 区 号 是 否 加 括号 (如 果 加 ， 则 左 、 右 括号 必须 成 对 出 现 )， 数 字 间 是 
BARS (AM) 或 连 字 符 ， 它 都 可 以 匹配 。 








Va 
* 第 10 章 会 展示 一 个 更 复杂 的 匹配 电话 号 码 的 正则 表达 式 ， 但 本 章 你 只 要 学 
Qa. 会 上 面 这 个 就 行 了 。 

Os, 





现在 还 不 理解 也 没关系 ， 本 章 会 将 整个 表达 式 的 内 容 分 拆 开 一 点 一 点 地 教 给 你 。 只 
要 你 跟着 这 里 的 示例 做 (当然 包括 本 书 其 他 示例 )， 编 写 正 则 表达 式 很 快 就 可 以 习惯 
成 自然 。 你 准备 好 了 吗 ? 

我 有 时 会 将 本 书 中 的 Unicode 字符 用 它们 的 代码 点 (4 位 的 十 六 进 制 数 ) 来 表示 。 
这 些 代 码 点 以 U+0000 的 形式 出 现 。 比 如 ，U+002E 表示 点 号 的 代码 点 。 


1.1 从 Regexpal 开 始 


首先 介绍 一 下 Regexpal 网 站 ( http://www.regexpal.com), E Google Chrome 或 者 
Mozilla Firefox 之 类 的 浏览 器 中 打开 该 网 站 ， 可 以 看 到 如 图 1-1 所 示 的 网 站 页 面 。 
































Enter regex herel 


Enter test data here. 


Need more power? Get RegexBuddy from JGsoft, a powerful regex tester & builder that inspired many of RegexPars features. 
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: 在 谷歌 Chrome 浏览 器 中 打开 Regexpal 网 站 





2 | 第 1 章 


接近 浏览 器 窗口 的 顶部 有 一 个 文本 区 ， 下 方 还 有 一 个 更 大 的 文本 区 。 顶 部 的 文本 区 

是 用 来 输入 正则 表达 式 的 ， 下 方 的 文本 区 是 用 来 输入 主题 或 目标 文本 的 。 目 标 文本 

即 要 从 中 匹配 字符 串 的 文本 。 

w 本 书 正文 每 一 章 的 结尾 都 有 一 节 “ 技 术 备 忘 录 "。 这 些 备 忘 录 提 供与 所 在 章 

p^ 。 节 讨 论 的 技术 有 关 的 额外 信息 ， 并 告诉 你 到 哪里 可 以 找到 更 多 的 相关 信息 。 
"ÁO 这 种 方法 既 不 会 打 断 正文 的 节奏 ， 又 能 为 读者 多 提供 一 些 扩展 信息 。 








1.2 ”匹配 北美 电话 号 码 


现在 我 们 要 写 一 个 正则 表达 式 匹 配 北美 电话 号 码 。 在 Regexpal 的 下 方 文本 框 中 键入 
以 下 电话 号 码 : 


707-827-7019 
知道 这 是 哪里 的 电话 号 码 吗 ?这 是 O'Reilly Media 的 电话 号 码 。 


接 下 来 用 正则 表达 式 匹 配 这 个 号 码 。 有 很 多 方法 都 可 以 做 到 ， 但 首先 只 要 在 上 方 的 
文本 框 键入 这 个 号 码 本 身 ， 也 就 是 与 下 方 文本 框 的 内 容 完全 一 致 即 可 〈 先 忍耐 一 下 ， 
别 泄气 ) : 


707-827-7019 


这 时 ， 你 应 该 看 到 下 方 文本 框 中 的 电话 号 码 从 头 到 尾 都 以 黄色 被 高 亮 显示 。 如 果 你 
的 结果 也 是 这 样 (如 图 1-2 所 示 )， 那 么 一 切 正常 。 

















As a. 亮 效 果 ， 应 该 只 能 在 线 或 者 从 本 书 的 电子 版 中 看 到 ， 而 不 会 出 现在 纸 质 版 
本 中 。 如 果 你 在 阅读 本 书 的 纸 质 版 ， 我 所 提 及 的 颜色 在 你 看 来 将 会 是 灰 阶 
的 ， 对 此 我 非常 抱歉 。 








1 本 书 中 提 及 的 有 关 图 片 或 者 屏幕 截图 中 的 颜色 ， 比 如 Regexpal 中 的 黄色 高 
Aa 
LI 








刚刚 你 所 写 的 正则 表达 式 是 用 字符 串 字面 值 (string literal) 来 匹配 目标 字符 串 的 。 
所 谓 字符 串 字 面值 ， 就 是 字面 上 看 起 来 是 什么 就 是 什么 。 


现在 将 上 方 文本 框 的 号 码 删除 ， 然 后 只 键入 数字 7。 你 看 到 什么 了 ? 现在 只 有 数 
字 7 高 亮 显 示 。 正 则 表达 式 中 的 字面 值 (数字 ) 7 与 目标 文本 中 数字 7 的 四 个 实 
例 匹 配 。 




















什么 是 正则 表达 


be 
B 








eo0/ G” Regex Tester - RegexPal x iy 
€ — Q Q regexpal.com XM 
regexpal 0.1.4 — a JavaScript regular expression tester Help . Version dcs Feodhaok | Sook | Biog 


.N9 O Case insensitive (i) C ^$ match at line breaks (m) (C) Dot matches all (s; via 


n -827-7019 | 




















Need more power? Get RegexBuddy from JGsoft, a powerful regex tester & builder that inspired many of RegexPal's features. 
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图 1-2; Regexpal 中 高 亮 显 示 的 十 位 电话 号 码 


1.3 用 字符 组 来 匹配 数字 
如 果 想 同时 匹配 电话 号 码 中 的 所 有 数值 或 者 只 匹配 特定 的 数值 ， 访 怎么 办 呢 ? 
在 上 方 的 文本 框 中 尝试 以 下 表达 式 ; 





[0-9] 


下 方 文本 框 中 所 有 的 数值 (准确 地 说 ， 应 该 是 数字 ) 以 黄色 和 蓝 色 交替 高 亮 显 示 。 
正则 表达 式 [0-9] 对 正则 表达 式 处 理 器 传递 的 信息 是 “匹配 0 到 9 范围 内 的 任意 
数字 ”。 

正则 表达 式 将 方 插 号 视 为 特殊 的 元 字符 (metacharacter)， 因 此 方 插 号 不 参与 匹配 。 
元 字符 是 在 正则 表达 式 中 有 特殊 含义 的 字符 ， 也 是 保留 字符 。[0-9] 这 种 形式 的 正 
则 表达 式 称 做 字符 组 (character class) ， 有 时 也 叫 字 符 集 (character set)。 


可 以 对 数字 的 范围 进行 进一步 限定 。 用 更 具体 的 一 组 数字 也 能 得 到 同样 的 结果 ， 比 如 : 


[012789] 
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这 个 字符 组 只 会 匹配 列 出 的 数字 ， 即 0、1、2、7、8、9。 在 上 方 的 文本 框 中 试 一 
试 ， 下 方 文本 框 中 的 相应 数字 同样 会 被 交替 标 亮 。 


要 匹配 任意 10 位 以 连 字符 分 隔 的 北美 电话 号 码 ， 可 以 使 用 以 下 正则 表达 式 : 
[0-9] [0-9] [0-9]-[0-9] [0-9] [0-9]-[0-9] [0-9] [0-9] [0-9] 


这 是 可 以 的 ， 但 太 长 了 。 更 好 的 方法 是 采用 简写 形式 。 


ra Ar LE A^ rn 一 下 

1.4 使 用 字符 组 简写 式 
就 像 在 本 章 开始 看 到 的 那样 ，\a 可 以 像 [0-9] 一 样 匹 配 任意 阿拉 伯 数 字 。 请 在 上 
方 文本 框 内 试 一 试 ， 和 之 前 的 表达 式 一 样 ， 下 方 的 数字 都 被 标 亮 了 。 这 种 正则 表达 
式 叫 做 字符 组 简写 式 (character shorthand), ， 也 叫 转 义 字符 (character escape), fH 
后 一 种 称谓 很 容易 造成 误解 ， 我 会 尽量 不 用 。 至 于 原因 ， 稍 后 我 再 解释 。 
可 以 使 用 以 下 表达 式 来 匹配 电话 号 码 中 的 任意 数字 : 

\d\d\d-\d\d\d-\d\d\d\d 
重复 \d 三 次 和 四 次 就 可 以 分 别 匹配 三 个 和 四 个 数字 。 该 表达 式 中 的 连 字 符 是 一 个 
字面 值 ， 因 此 会 被 原样 匹配 。 
除了 和 上 面 表达 式 一 样 ， 使 用 连 字符 本 身 (-) 来 匹配 连 字 符 之 外 ， 也 可 以 用 转 义 的 
大 写 D(\D)， 它 匹配 任何 一 个 非 数字 字符 。 


以 下 示例 使 用 了 \D (而 没有 使 用 连 字 符 本 身 ) 来 匹配 连 字符 : 





\d\d\d\D\d\d\d\D\d\d\d\d 


这 次 整个 电话 号 码 包 括 连 字符 又 都 被 标 亮 了 。 


15 ”匹配 任意 字符 
还 可 以 用 点 号 (.) 来 匹配 那些 讨厌 的 连 字符 : 
\d\d\d.\d\d\d.\d\d\d\d 


点 号 〈 英 文句 号 ) 是 一 个 通配符 ， 可 以 匹配 任意 字符 (但 某 些 情况 下 不 能 匹配 行 起 
始 符 )。 以 上 示例 中 的 正则 表达 式 匹 配 了 连 字符 ， 但 它 也 可 以 匹配 百 分 号 (8): 


707%827%7019 
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或 者 是 坚 线 〈|) : 
707|827|7019 
亦 或 其 他 字符 。 


Va 
如 前 所 述 ， 点 号 一 般 不 匹配 行 起 始 符 ， 比 如 换行 符 (U+000A)。 然 而 ， 
有 很 多 方法 可 以 使 点 号 匹配 行 起 始 符 ， 之 后 我 会 展示 。 这 通常 叫做 dotall 























uS 


1.6 捕获 分 组 和 后 向 引用 


本 节 我 们 使 用 捕获 分 组 (capturing group) 来 匹配 电话 号 码 中 的 某 一 部 分 。 然 后 使 
用 后 向 引用 (backreference) 对 分 组 中 的 内 容 进 行 引 用 。 要 创建 捕获 分 组 ， 先 将 一 
个 N\a 放 在 一 对 圆 括号 中 ， 这 样 就 将 它 放 入 了 一 个 分 组 中 ， 后 面 可 以 用 \1 来 对 捕获 
的 内 容 进行 后 向 引用 : 





(\d) \d\1 
\1 对 括号 内 分 组 捕获 的 内 容 进 行 了 反 向 引用 。 这 个 正则 表达 式 匹 配 的 是 区 号 707. 
以 下 是 对 该 表达 式 的 详细 分 析 : 
* AD 匹配 第 一 个 数字 并 将 其 捕获 (数字 7) ， 
e \d 匹配 第 二 个 数字 (数字 0) 但 没有 捕获 ， 因 为 没有 括号 ; 
。 \1 对 捕获 的 数字 进行 反 向 引用 (数字 7). 
这 个 正则 表达 式 只 匹配 了 区 号 。 如 果 你 还 没有 完全 理解 ， 请 不 要 担心 。 本 书后 面 会 
介绍 很 多 有 关 捕 获 分 组 的 示例 。 


现在 可 以 用 一 个 分 组 和 几 个 后 向 引用 对 整个 电话 号 码 进行 匹配 : 











(Ad) 0\1\D\d\d\1\D\1\d\d\d 


但 这 还 不 够 简洁 美观 。 下 一 节 我 们 会 莹 试 更 好 的 方法 。 


17 ”使 用 量词 
现在 用 另 一 种 语法 来 匹配 电话 号 码 : 
\d{3}-?\d{3}-?\d{4} 
花 括号 中 的 数字 表示 待 查 找 的 数字 出 现 的 次 数 。 包 含 数字 的 花 括 号 是 一 种 量词 
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(quantifier) 。 花 括号 本 身 用 做 元 字符 。 


问号 是 另 一 种 量词 ， 在 以 上 表达 式 中 表示 连 字符 是 可 选 的。 也 就 是 说 ， 连 字符 可 以 
不 出 现 或 只 出 现 一 次 。 还 有 其 他 的 量词 ， 例 如 加 号 G) 表示 “一 个 或 多 个 "， 星 号 
(*) 表示 “ 零 个 或 多 个 ”。 


使 用 量词 能 让 正则 表达 式 变 得 更 简洁 : 





(Nà(3,4) [.-12) 


对 ， 加 号 表示 出 现 一 次 或 多 次 。 这 个 正则 表达 式 表示 括号 里 的 模式 出 现 一 次 或 多 次 ， 
括号 里 的 模式 匹配 三 位 或 四 位 数字 ， 后 跟 一 个 连 字符 或 一 个 点 号 。 


你 有 没有 头晕 呢 ? 我 希望 没有 。 下 面 逐 一 解释 表达 式 中 的 每 一 项 : 


左 圆 括号 ( 为 捕获 分 组 的 起 始 符 ， 

。 反 斜 杠 \ 为 字符 组 简写 式 的 起 始 符 (对 之 后 的 字符 进行 转 义 ) ， 
。 字符 a 为 字符 组 简写 式 的 结束 符 (a 匹配 0 到 9 范围 内 的 任意 数字 ) ; 
。 Abdo { 为 量词 起 始 符 ， 

。 数字 3 为 匹配 的 最 小 数量 ， 

。 喜 号 ， 隔 开 不 同 的 数量 ， 

。 数字 4 为 匹配 的 最 大 数量 ， 

。 右 花 括号 } 为 量词 的 结束 符 ， 

。 左 方 括号 [ 为 字符 组 的 起 始 符 ， 

。 点 号 . (匹配 点 号 本 身 ) ; 

。 连 字符 - 匹配 连 字 符 的 本 身 ， 

。 ATES ] 为 字符 组 的 结束 符 ; 

。 问号 ? 表示 量词 “ 零 个 或 一 个 ”， 

。 右 圆 括号 ) 为 捕获 分 组 的 结束 符 ， 

。 加 号 + 表示 量词 “一 个 或 多 个 ”。 


这 个 表达 式 能 用 但 不 完全 对 ， 因 为 它 只 能 匹配 3 位 或 4 位 的 数字 ， 而 不 管 是 否 符合 
电话 号 码 的 格式 。 好 吧 ， 犯 错 会 让 我 们 印象 深刻 ， 进 步 得 更 快 。 


我 们 来 改进 一 下 : 
(Nà(3) [.-12) {2}\d{4} 


这 个 表达 式 匹 配 的 字符 串 是 连续 两 个 无 括号 的 三 位 数字 ， 每 三 位 数字 后 可 以 带 连 字 
符 也 可 以 不 带 ， 最 后 是 一 个 四 位 数字 。 
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1.8 ELF 


最 后 这 个 正则 表达 式 表 示 第 一 个 3 位 数字 可 以 带 也 可 以 不 带 括号 ， 即 区 








"TER : 


ql 
rai 








AA (\a{3}\) |^a(3) £--1 2) 2\d{3} E. -1?Ná(4)$ 
为 了 便于 理解 ， 我 们 再 依次 看 一 下 表达 式 中 的 各 项 : 


。 出 现在 正则 表达 式 起 始 位 置 或 者 竖 线 (| ) 之 后 的 脱 字 符 ^， 表 示 电 话 号 码 会 出 现 
在 一 行 的 起 始 位 置 ; 

。 左 括 号 ( 为 捕获 分 组 的 起 始 符 ; 

。 \( 表示 左 括号 本 身 ; 

* Na 匹配 一 位 数字 ; 

* Nd 之 后 的 (3) 是 量词 ， 表 示 匹 配 三 位 数字 ， 

。 \) 匹配 右 括号 本 身 ， 

。 坚 线 符 | 表示 选择 ， 也 就 是 从 多 个 可 选项 中 选择 一 个 ， 换 名 话说 ， 它 表示 “匹配 
一 个 不 带 括号 的 区 号 或 一 个 带 括号 的 区 号 ”; 

。 脱 字 符 ^ 匹 配 行 起 始 位 置 ; 

。 Nd 匹配 一 位 数字 ， 

。 (3) 是 表示 匹配 三 位 数字 的 量词 ， 

。 [.-] ? 匹配 一 个 可 选 的 点 号 或 连 字 符 ; 

。 布 括号 ) 为 捕获 分 组 的 结束 符 ; 

。 问号 ? 表示 分 组 可 选 ， 即 分 组 中 的 前 级 可 有 可 无 ; 

* Na 匹配 一 位 数字 ; 

。 (3) 表示 匹配 三 位 数字 的 量词 ; 

e [.-] ? 匹配 另 一 个 可 选 的 点 号 或 连 字 符 ; 

。 Nd 匹配 一 位 数字 ， 

。 (4) 是 表示 匹配 四 位 数字 的 量词 ， 

。 美元 符 $ 匹配 行 结束 位 置 。 


这 个 表达 式 最 终 匹 配 十 位 的 北美 电话 号 码 ， 而 且 括 号 、 连 字符 或 者 点 号 都 是 可 选 的 。 
你 可 以 试 试 不 同 格式 的 电话 号 码 ， 看 看 它 能 否 匹 配 。 
































以 上 正则 表达 式 中 的 捕获 分 组 并 不 是 必需 的 。 分 组 是 必要 的 ， 但 是 捕获 不 
需要 。 更 好 的 方法 是 使 用 非 捕获 分 组 。 在 本 书 最 后 一 章 中 我 们 再 次 讨论 这 
个 正则 表达 式 时 ， 你 自然 就 理解 了 。 




















1.9 ”应 用 举例 
本 章 最 后 ， 我 们 在 几 个 应 用 程序 里 测试 一 下 匹配 电话 号 码 的 正则 表达 式 。 


TextMate 是 一 个 只 在 Mac 上 运行 的 文本 编辑 器 ， 它 采用 与 Ruby 语言 相同 的 正则 
表达 式 程序 库 。 你 可 以 通过 Find (查找 ) 对 话 框 使 用 正则 表达 式 ， 如 图 1-3 示 。 将 
Regular expression 旁 的 复 选 框 选中 。 








- 


707-827-7019 


P" — NN 71 —  ——— 
Find: | A(\(\d{3}\)|A\ {3 3L.-]?)?\ d( 3. TAd(4)$ = 


m 
+) [¥ 




















Replace: 








M Regular expression [Ignore case (M wrap around 





[ In Selection | | Replace | | Replace &Find | | Previous | [ Next ] 





























1-3; 在 TextMate 中 测试 正则 表达 式 


Notepad++ 是 运行 于 Windows 上 的 一 个 常用 的 免费 文本 编辑 器 ， 它 采用 了 PCRE 
(Perl Compatible Regular Expression, Perl 兼容 正则 表达 式 ) Fé, LAWS 
Regular expression 22 I ve 4 40 Z Ja, 3b eT EA FR GE WU Ze GA S XE fp RIK T 
(参见 图 1-4), 








Oxygen 是 个 流行 且 强 大 的 XML 编辑 器 ， 它 使 用 Perl 5 的 正则 表达 式 语 法 。 可 以 
通过 图 1-5 中 的 查找 和 替换 对 话 框 或 者 通过 XML Schema 的 正则 表达 式 构建 工具 
使 用 正则 表达 式 。 要 在 查找 和 替换 对 话 框 里 使 用 正则 表达 式 ， 则 要 勾 选 Regular 
expression 221) & YET , 
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[Bf CAUsers\mikef2\code\orm-phone.txt - Notepad++ A. 











File Edit Search View Encoding Language Settings Macro Run Plugins Window ? X 
| ocB& obe AACA n x«l)" mmm gw 
Ej omphone te | 








1 707-827-7019 












































Find Li 
Find [Replace | Find in Fies | Mark. 
Find what: "(CAIN VC)? SLPS ~ Em OO) 
Count. 
Find Allin All Opened. 
Documents 
p Find Allin Current 

口 watch whole word only 

Match case as 

I] wrap around 

Search Mode. Directon E Transparency 

© Normal Ow On losing focus 

© Extended (vy Y, V, V Ve.) @ down Always 

@ Regular expression [F]. matches newline 一 一 一 


























|Normal text file. length:12 lines:l Ln:1 col:1 Sel:0 Dos\Windows ANSI INS 








图 1-4: 在 Notepad++ 中 测试 正则 表达 式 








国 orm-phone:txt [CAUsers\mikefz\code\orm-phone.txt] - «oXygen/» XML Editor e[m| x 


File Edit Find Project Options Tools Document Window Help (at af r5 
iem mmHiuagEite»i 
o-[ — SS WEE m 











esi AE e ORO e RI BR is 


=] 








Texttofind: Q, 
FA THS 


























@al 
© Only selected ines 


[ Whole words oniy 
I] Regular expression 
[El Dot matches al 





























图 1-5: 在 Oxygen 中 测试 正则 表达 式 


对 正则 表达 式 的 简介 到 此 为 止 。 恭 喜 你， 你 在 本 章 已 经 接触 了 不 少 基 础 内 容 。 下 一 
章 的 重点 是 简单 的 模式 匹配 。 





1.10 本章 所 学 


。 什么 是 正则 表达 式 

。 如 何 使 用 简单 的 正则 表达 式 处 理 器 Regexpal 

。 如 何 匹配 字符 串 字 面值 

。 如 何 使 用 字符 组 匹配 数字 

。 如 何 使 用 字符 组 简写 式 匹 配 一 位 数字 

。 如 何 使 用 字符 组 简写 式 匹 配 一 个 非 数 字 字 符 

。 如 何 使 用 捕获 分 组 和 后 向 引用 

。 如 何 匹配 确切 数量 的 字符 串 

。 如 何 匹配 出 现 零 次 或 一 次 的 字符 〈 可 选 字符 ) 和 出 现 一 次 或 多 次 的 字符 
。 如 何 匹配 行 起 始 位 置 或 行 结束 位 置 的 字符 串 


1.11. 相关 资源 

e Regexpal (http://www.regexpal.com) 是 一 个 在 线 的 用 JavaScript 实现 的 正则 表达 
式 处 理 器 。 它 并 不 是 正则 表达 式 的 完整 实现 ， 因 此 功能 并 不 完整 ,但 是 它 是 个 简 
洁 易 用 的 学 习 工具 ， 很 容易 上 手 。 

e 可 以 从 https://www.google.com/chrome 下 载 Chrome 浏览 器 ， 或 者 从 http://www. 
mozilla.org/en-US/firefox/new/ 下 载 Firefox 浏览 器 。 

。 为 什么 有 那么 多 编写 正则 表达 式 的 方法 ? 一 个 原因 是 正则 表达 式 具 有 可 组 合 性 
(composability) 。 对 于 一 种 具备 可 组 合 性 的 语言 (James Clark 很 好 地 解释 了 这 
种 特性 ， 参 见 http://www.thaiopensource.com/relaxng/design.html#section5)， 不 

管 是 形式 语言 、 程 序 设 计 语 言 还 是 模式 语言 ， 都 可 以 很 容易 地 将 其 原子 部 分 和 构 
造 方法 用 各 种 不 同 的 方式 重新 组 合 。 只 要 掌握 了 正则 表达 式 的 所 有 “原子 部 分 ”， 
你 就 会 发 现 没什么 字符 串 是 匹配 不 出 来 的 。 

e TextMate 可 以 从 http://www.macromates.com 获取 。 有 关 TextMate 中 正则 表达 式 
的 更 多 信息 ， 请 参考 http://manual.macromates.com/en/regular_expressions。 

。 有 关 Notepad++ 的 更 多 信息 ， 请 参见 http://notepad-plus-plus.org。 有 关 如 何 

f£ Notepad 中 使 用 正则 表达 式 ， 请 参考 http://sourceforge.net/apps/mediawiki/ 
notepad-plus/index. php?title-Regular Expressions, 

。 访问 http://www.oxygenxml.com 可 以 看 到 更 多 有 关 Oxygen 的 内 容 。 有 关 在 查找 
和 替换 对 话 框 中 使 用 正则 表达 式 的 信息 ， 请 参见 http://www.oxygenxml.com/doc/ 
ug-editor/topics/find-replace-dialog.html, 42€ XML Schema 的 正则 表达 式 构 建 工 
具 的 信息 ， 请 参见 http://www.oxygenxml.com/doc/ug-editor/topics/XML-schema- 














regexp-builder.html。 
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第 2 章 


简单 的 模式 匹配 





正则 表达 式 唯一 的 用 途 就 是 在 文本 中 匹配 和 寻找 模式 ， 模 式 可 以 简单 也 可 以 复杂 。 
本 章 将 会 介绍 一 些 采 用 以 下 概念 匹配 模式 的 简单 方法 : 


。 字符 串 字 面值 ， 

. BF 

° FRF, 

。 任意 字符 。 

第 1 章 我 们 使 用 了 Steven Levithan 的 RegexPal 演示 了 正则 表达 式 的 作用 。 本 章 我 


们 将 使 用 Grant Skinner 的 RegExr 网 站 ， 网 址 为 http://gskinner.com/RegExr (如 
2-1 所 示 )。 

















Sg, 入 地 理解 正则 表达 式 语法 。 我 想 说 的 是 ， 当 你 遇 到 新 事物 时 要 主动 尝试 。 


Ey " 本 书 对 正则 表达 式 的 讲解 会 逐步 深入 。 在 这 个 过 程 中 ， 也 希望 你 能 逐步 深 
Aa 
全 尝试、 失败、 掌握 、 进 步 。 通 过 实践 来 学 习 是 不 会 有 错 的 。 





在 深入 学 习 之 前 ， 我 们 先 看 看 RegExr 为 我 们 提供 了 什么 好 东西 。 在 RegExr 界面 
右上 方 有 三 个 标签 ， 请 注意 Samples 和 Community, Samples 标签 提供 正则 表达 式 
语法 方面 的 许多 帮助 信息 ，Community 标签 则 展示 了 大 量 由 别人 提供 且 得 到 评分 的 
正则 表达 式 。 这 些 标签 中 的 很 多 信息 可 能 对 你 非常 有 用 。 把 鼠标 光标 放 在 RegExr 
的 正则 表达 式 或 者 目标 文本 上 ， 就 会 弹出 一 些 有 用 的 信息 。 这 些 都 是 我 非常 喜欢 
RegExr 这 个 在 线 正 则 表达 式 验 证 工具 的 原因 。 





































Welcome to RegExr 0.3b, an intuitive tool for learning, writing, and testing Regular 
Expressions. Key features include: 


* real time results: shows results as you type 

* code hinting: roll over your expression to see info on specific 

* detailed results: roll over a match to see details & view group info below 

* built in regex guide: double click to insert them into your expression 

* online & desktop: regexr.com or download the desktop version for Mac, Windows, or Linux 
* save your expressions: My Saved expressions are saved locally 

* share and rate expressions: search Community and share your own [ABC] 


[^ABC] 





Built by gskinner.com with Flex 3 [adobe.com/go/flex] and Spelling Plus Library for text 
highlighting [askinner.com/products/spl]. 





Matches any character, except for line breaks if 
dotall is false. 


RegExp: /\be(\w*)s\b/g 
pattern: \be(\w*)s\b 
flags: g 

1 capturing groups: 
group 1: (\w*) 














B 2-1: 4 FireFox 中 打开 Grant Skinner 的 RegExr 


本 章 以 《抒情 歌谣 集 》 (Lyrical Ballads, London, J. & A. Arch, 1798) 中 收录 的 塞 缪 
AR c 泰勒 柯 勒 律 治 的 一 首 诗 “The Rime of the Ancient Mariner” 为 主要 示例 文本 。 
接 下 来 的 儿童 中 都 会 用 到 这 首 诗 ， 开 始 是 普通 文本 版 ， 之 后 过 渡 到 由 HTMLS 标记 
的 版 本 。 该 诗 的 全 文保 存在 名 为 rime.txt 的 文件 中 ， 本 章 使 用 的 rime-intro.txt 文件 
只 包括 该 诗 的 前 几 行 。 
以 下 几 行 是 rime-intro.txt 的 内 容 : 

THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 

ARGUMENT. 

How a Ship having passed the Line was driven by Storms to the cold Country 

towards the South Pole; and how from thence she made her course to the tropical 


Latitude of the Great Pacific Ocean; and of the strange things that befell; 
and in what manner the Ancyent Marinere came back to his own Country. 


Ey 

1 It is an ancyent Marinere, 

2 And he stoppeth one of three: 

3 "By thy long grey beard and thy glittering eye 
4 "Now wherefore stoppest me? 





将 这 些 内 容 复制 并 粘贴 到 RegExr 中 下 方 的 文本 框 中 。 可 以 在 Github 中 找到 rime- 
intro.txt 文件 ， 地 址 是 https://github.com/michaeljamesfitzgerald/Introducing-Regular- 
Expressions; 也 可 以 在 通过 http://examples.oreilly.com/978 1449392680/examples.zip 
下 载 到 的 压缩 包 中 找到 该 文件 。 还 可 以 在 Project Gutenberg 中 找到 这 首 诗 在 线 文 本 ， 
只 是 没有 行 号 (参见 http://www.gutenberg.org/ebooks/9622)。 


2.1 匹配 字符 串 字 面值 
正则 表达 式 最 为 直接 和 明显 的 功能 就 是 用 一 个 或 多 个 字符 字面 值 来 匹配 字符 串 。 


匹配 字符 串 字 面值 的 方法 就 是 使 用 普通 的 字符 。 这 听 起 来 是 否 有 些 熟悉 呢 ? 这 就 和 
你 在 Word 等 字 处 理 程序 中 使 用 查找 或 者 在 搜索 引擎 中 输入 关键 字 类 似 。 当 你 以 逐 
个 字符 对 应 的 方式 查找 文本 字符 串 的 时 候 ， 就 是 在 用 字符 串 字 面值 查找 。 








举 个 例子 ， 如 果 你 要 匹配 以 上 诗 文中 开头 部 分 的 单词 Ship, REE RegExr 上 方 的 
文本 框 中 键入 Ship ， 该 单词 就 会 在 下 方 的 文本 框 中 标 亮 〈 首 字母 要 大 写 )。 


下 方 文本 框 中 是 否 有 痰 蓝 色 标 亮 部 分 ? 应 当 能 看 到 ， 如 果 你 没有 看 到 ， 请 检查 一 下 
输入 的 字面 值 。 





默认 情况 下 ，RegExr 中 的 字符 串 匹 配 是 区 分 大 小 写 的 。 车 要 不 区 分 大 小 
Wa. 写 ， 则 要 勾 选 RegExr 左上 方 的 ignoreCase (忽略 大 小 写 ) 旁 的 复 选 框 。 选 
中 该 复 选 框 后 ， 目 标 文本 中 的 Ship 或 ship 都 会 匹配 。 





2.2 ”匹配 数字 


在 RegExr 中 左上 方 的 文本 框 中 ， 输 入 以 下 字符 组 简写 式 来 匹配 数字 : 








Nd 


因为 默认 色 选 了 global (全 局 匹配 ) 复 选 框 ， 这 将 会 匹配 下 方 文本 区 域 中 所 有 的 阿 
拉 伯 数字 。 取 消 选 择 该 复 选 框 后 ，\a 只 会 匹配 第 一 个 出 现 的 数字 (参见 图 2-2). 


BUE HE FPA AK Na 来 匹配 相同 的 内 容 。 在 RegExr 的 上 方 文本 框 中 输入 以 下 范围 
的 数字 : 

















[0-9] 


如 同 在 图 2-3 中 看 到 的 ， 虽 然 语法 不 一 样 ， 但 Na 和 [0-9] 的 效果 是 一 样 的 。 











简单 的 模式 匹配 | 15 

















How a Ship having passed the Line was driven by Storms to the cold 
Country towards the South Pole; and how from thence she made her course 
to the tropical Latitude of the Great Pacific Ocean; and of the strange 
things that befell; and in what manner the Ancyent Marinere came back to 


It is an ancyent Marinere, 
And he stoppeth one of three: 
"By thy long grey beard and thy glittering eye 


























How a Ship having passed the Line was driven by Storms to the cold 
Country towards the South Pole; and how from thence she made her course 


It is an ancyent Marinere, 

‘And he stoppeth one of three: 
"By thy long grey beard and thy glittering eye 
"Now wherefore stoppest me? 




















图 2-3: 在 RegExr 中 用 [0-9] 匹配 所 有 的 数字 





16 | 第 2 章 


第 5 章 将 会 学 习 更 多 有 关 字 符 组 的 内 容 。 


ut) 








字符 组 [0-9] 表示 范围 ， 这 意味 着 它 会 匹配 0 至 9 范围 内 的 数字 。 你 也 可 以 列 出 0 
至 9 范围 内 的 所 有 数字 来 进行 匹配 : 





[0123456789] 
如 果 只 想 匹 配 0 和 1 两 个 数字 ， 可 以 使 用 这 个 字符 组 : 

[01] 
请 在 RegExr 中 尝试 一 下 [121 并 看 看 结果 。 使 用 字符 组 可 精确 匹配 字符 。 数 字 的 字 
符 组 简写 式 \a 更 为 简短 ， 但 却 没有 字符 组 强大 、 灵 活 。 在 无 法 使 用 \a 时 (不 是 所 
有 情况 下 都 支持 这 种 方式 ) ， 或 者 想 匹 配 特 定数 字 时 ， 就 需要 使 用 字符 组 ;合适 的 时 
候 可 以 使 用 \a， 因 为 它 更 简短 。 


2.3 匹配 非 数字 字符 


通常 可 以 将 简写 式 取 反 ， 取 反 的 结果 就 是 排除 。 比 如 ， 要 匹配 非 数 字 字 符 ， 可 使 用 
包含 以 下 大 写字 母 DD 的 简写 式 : 








ND 


请 在 RegExr 中 试 一 试 。 大 写字 母 D 取代 小 写字 母 4， 就 会 匹配 非 数 字 字 符 (如 图 
2-4 所 示 )。 该 简写 式 与 以 下 字符 组 取 反 的 作用 相同 (字符 组 取 反 的 意思 其 实 就 是 
“不 匹配 这 些 ” 或 “匹配 除 这 些 以 外 的 内 容 ”) : 


[*0-9] 
下 面 这 个 表达 式 作 用 也 一 样 : 


[*\d] 
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Matches any character, except for line breaks If 
dotall Is false. 











图 2-4: 在 RegExr OF \D 匹配 非 数 字 字符 


2.4 匹配 单词 和 非 单词 字符 
在 RegExr 中 ,将 \D 替换 为 : 
\w 


这 个 简写 式 将 匹配 所 有 的 单词 字符 (前 提 是 勾 选 global XJ), Np 与 Nw 的 区 别 是 ND 
会 匹配 空格 、 标 点 符号 (Gs, EF, KRH DMS) 等 字符 ， 而 Nw 却 不 会 ， 
它 只 匹配 字母 、 数 字 和 下 划 线 。 


在 英语 环境 中 ， 与 Nw 匹配 相同 内 容 的 字符 组 为 : 


[ a-zA-Z20-9] 
Va 
4 我 们 会 在 第 6 章 学 习 怎 样 匹配 非 英文 字符 。 
4b 











现在 用 大 写字 母 W 匹配 非 单词 字符 : 

NW 
在 本 示例 中 ， 这 个 简写 式 匹配 空格 、 标 点 以 及 其 他 非 字 母 、 非 数字 字符 。 使 用 以 下 
字符 组 也 可 以 匹配 相同 的 内 容 : 

[*_a-zA-Z0-9] 
字符 组 允许 你 匹配 更 多 类 型 的 字符 ， 但 有 时 你 不 想 而 且 也 没有 必要 键入 所 有 字符 。 
这 也 就 是 “按键 次 数 最 少 则 胜 ” 的 原则 。 但 有 时 你 确实 需要 将 所 有 的 字符 键入 才能 
得 到 准确 的 结果 。 反 正 你 自己 决定 。 











轻松 一 下 ， 在 RegExr 中 试 一 下 : 
[^\w] 
以 及 
DN] 
你 看 到 匹配 结果 的 差异 了 吗 ? 
K 2-1 提供 了 更 多 的 字符 简写 式 。 不 过 并 不 是 所 有 的 正则 表达 式 处 理 器 都 能 识别 这 
些 简 写 式 。 


表 2-1: 字符 简写 式 

















字符 简写 式 描 B 字符 简写 式 描 述 

Na 报警 符 Vw 单词 字符 

[\b] 退 格 字 符 NW 非 单词 字符 

\c x 控制 字符 NO 空 字符 

\d 数字 字符 \x xx 字符 的 十 六 进 制 值 
ND 非 数 字 字 符 Nu Xxx 字符 的 Unicode 值 
NO Xxx 字符 的 八进制 值 


2.5 匹配 空白 符 
可 以 用 以 下 简写 式 匹 配 空白 符 : 
\s 


请 在 RegExr 试 一 试 并 看 看 高 亮 的 部 分 (参见 图 2-5)。 以 下 字符 组 与 \s 匹配 的 内 容 
相同 : 








[ \t\n\r] 
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Matches any character, except for line breaks If 
dotall is false. 














& 2-5: fr RegExr pH \s 匹配 空白 符 
也 就 是 说 ， 它 会 匹配 : 


， 空 格 
+ 制 表 符 (\t) 
。 换行 符 On) 
。 回 车 符 Ar) 
Va 
as | 。 在 RegExr 中 空格 符 与 制 表 符 会 被 标 亮 ， 但 换行 符 和 加 车 符 则 不 会 。 
Mn 





可 想 而 知 ，\s 也 有 对 应 的 大 写 形式 。 要 匹配 非 空 白字 符 ， 则 使 用 : 
\s 
这 个 简写 式 匹 配 除 空白 符 之 外 的 所 有 符号 。 它 匹配 字符 组 : 


[^ \t\n\r] 





或 者 是 : 
[^ s] 
请 在 RegExr 中 试 一 下 看 看 会 发 生 什 么 。 


除了 Ns 匹配 的 字符 之 外 ， 还 有 其 他 不 太 常 见 的 空白 字符 。 表 2-2 列 出 了 匹配 常见 和 
不 太 常 见 的 空白 字符 的 简写 式 。 


表 2-2: 匹配 各 种 空白 符 的 简写 式 









































字符 简写 式 描 述 字符 简写 式 描 述 
NE 换 页 符 \s 空白 符 
\h 水 平 空 白 符 \s 非 空 白 符 
wi JERAT C 水 平 制 表 符 
\n 换行 符 \v 垂直 制 表 符 
\r 回 车 符 NV 非 垂 直 制 表 符 











2.6 ”再 谈 匹 配 任 意 字符 


用 正则 表达 式 匹配 任意 字符 的 一 种 方法 就 是 使 用 点 号 (U+002E)。 点 号 可 以 匹配 除 
行 结束 符 之 外 的 所 有 字符 ， 个 别 情况 除外 。 


在 RegExr 中 ， 去 掉 对 global 复 选 框 的 勾 选 。 这 样 ， 任 何 正则 表达 式 都 会 匹配 目标 
文本 中 第 一 个 匹配 项 。 


在 RegExr 上 方 的 文本 框 中 键入 单个 点 号 来 匹配 任意 字符 。 
如 图 2-6 所 示 ， 点 号 匹配 了 目标 文本 中 的 第 一 个 字符 T。 


要 匹配 THE RIME 整个 短语 ， 则 可 使 用 八 个 点 号 : 














但 这 种 方法 太 麻 烦 ， 所 以 推荐 用 量词 : 

.{8} 
这 个 表达 式 就 能 匹配 前 两 个 单词 以 及 它们 之 间 的 空格 ， 但 只 是 粗略 地 匹配 。 勾 选 
global 旁 的 复 选 框 ， 看 看 这 个 表达 式 还 有 什么 作用 ， 你 就 知道 我 所 说 的 粗略 是 什么 
意思 了 。 它 匹配 了 连续 多 组 的 八 个 字符 ， 头 尾 相 连 ， 只 有 目标 文本 的 最 后 儿 个 字符 
除外 。 
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— 

















global | | ignoreCase | | extended dotali | | 





























"THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
| ARGUMENT. 


[i sop passed the Line was driven by Storms to the cold 
untry towar 





"By thy long grey beard and ty litern g eye 
"Now wherefore stoppest me: 











& 2-6. 在 RegExr 中 用 . 匹配 单个 字符 


下 面 我 们 再 试 试 匹配 单词 的 边界 和 字母 的 开始 和 结束 位 置 。 在 RegExr 上 方 文本 框 
中 键入 以 下 内 容 ， 可 以 看 到 细微 的 差异 : 


\baA.{5}T\b 


这 个 表达 式 有 更 强 的 特 指 性 (请 记 住 特 指 性 ，specificity， 这 个 概念 很 重要 )， 它 匹 
配 单词 ANCYENT， 也 就 是 ancient 的 旧式 拼写 形式 。 这 是 如 何 做 到 的 呢 ? 


。 简写 式 Vo 匹配 单词 边界 ， 不 消耗 任何 字符 ， 
。 字符 A 和 T 限 定 了 字符 序列 的 首尾 字母 ， 

。 .{5} 匹配 任意 五 个 字符 ; 

。 简写 式 \b 匹配 单词 的 另 一 个 边界 。 


这 个 正则 表达 式 实际 上 可 以 匹配 ANCYENT 和 ANCIENT, 
现在 再 试 一 下 这 个 简写 式 : 


\b\w{7}\b 





最 后 再 试 试 匹配 零 个 或 多 个 字符 : 


.* 


它 就 相当 于 : 
[^\n] 

或 
[*\n\r] 


类 似 地 ， 点 号 也 可 以 与 表示 “一 个 或 多 个 ”的 量词 (+) XEH: 


at 





请 在 RegExr 中 尝试 这 些 表 达 式 ， 它 们 都 会 匹配 第 一 行内 容 (在 取消 勾 选 global 复 
选 框 的 情况 下 )。 原 因 是 点 号 通常 不 会 匹配 折 行 符 ， 例 如 换行 符 (U+000A) 或 回 车 
符 (U+000D)。 勾 选 dotal 旁边 的 复 选 框 ， 然 后 .* 和 .+ 就 会 匹配 下 方 文本 框 中 的 
全 部 文本 。(dotall 表示 点 号 匹配 包括 换行 符 在 内 的 所 有 字符 。) 

这 就 涉及 量词 的 贪心 特性 了 。 所 谓 “ 贪 心 ”(greedy)， 指 量词 会 匹配 所 有 能 匹配 的 
字符 。 别 急 ， 第 7 章 会 详细 介绍 量词 及 其 贪心 特性 。 


2.7 给 文本 加 标签 


怎么 让 “The Rime of the Ancient Mariner” 的 内 容 以 网 页 而 不 是 纯 文本 形式 显示 
呢 ? 换 句 话 说 ， 怎 么 使 用 正则 表达 式 而 不 是 手写 方式 为 它们 添加 HTML5 标签 呢 ? 


在 之 后 的 儿童 中 ， 我 会 陆续 展示 相应 的 方法 ， 本 章 先 从 简单 情况 的 开始 。 


点 击 RegExr 中 的 Replace (AFH) 标签 ， 选 中 multiline (多 行 ) 选项 ， 然 后 在 第 一 
个 文本 框 中 键入 : 











(^Tr.*$) 


这 个 表达 式 会 从 文件 的 开始 匹配 诗 文 的 第 一 行 ， 然 后 使 用 括号 将 文本 捕获 到 一 个 分 
组 中 。 在 第 二 个 文本 框 中 键入 : 








<hl>$1<\h1> 
这 个 替换 表达 式 将 $1 HRA ARE T hl 标签 中 。 可 以 在 底部 的 文本 框 中 看 到 
结果 。s1 是 一 个 Perl 风格 的 后 向 引用 。 此 外 ， 在 包括 Perl 在 内 的 多 数 实现 程序 中 ， 
还 可 以 使 用 \1 表示 后 向 引用 ,但 是 RegExr 只 支持 $1、$2、$3 这 样 的 方式 。 我 们 
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会 在 第 4 章 中 讲解 更 多 有 关 分 组 和 后 向 引用 的 内 容 。 


2.7.1 用 sed 为 文本 加 标签 

在 命令 行 中 使 用 sed 也 可 以 为 文本 添加 标签 。sed 是 Unix 流 编辑 器 ， 它 支持 用 正则 
表达 式 转 换文 本 。sed 最 初 在 20 世纪 70 年 代 早 期 由 Lee McMahon 于 贝尔 实验 室 开 
发 。 如 果 用 户 使 用 的 是 Mac 或 者 Linux， 那 就 已 经 有 sed T. 





请 在 shell 提示 符 (比如 Mac 中 的 Terminal 终端 窗口 ) 中 测试 以 下 内 容 : 
echo Hello | sed s/Hello/Goodbye/ 
运行 的 过 程 应 该 如 下 : 
。 echo 命令 将 在 标准 输出 设备 (通常 是 屏幕 ) 中 打印 单词 Hello， 坚 线 符 (|) 将 打 
印 内 容 通过 管道 传 到 之 后 的 sea 命令 ; 
。 管道 将 echo 的 输出 转 为 sed 的 输入 ， 
* sed 的 s 命令 将 单词 Hello ZA Goodbye, mi Goodbye 就 显示 在 屏幕 上 了 。 


如 果 你 的 平台 上 还 没有 安装 sed， 可 以 参考 本 章 末 尾 相 关 资 源 中 的 链接 。 其 中 还 讨 
论 了 BSD 和 GNU 两 个 版 本 的 sed, 


现在 试 着 在 命令 或 shell 提示 符 中 键入 : 








sed -n 's/*/<h1>/;s/$/<\/h1>/p;q' rime.txt 
而 输出 就 是 : 

<hl>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.«/hl» 
以 下 是 正则 表达 式 处 理 器 的 工作 过 程 解析 。 


。 首先 调用 sed 程序 。 

。 sed 默认 的 操作 是 直接 复制 每 行 输入 并 输出 ，-n 选项 覆盖 了 该 默认 操作 。 之 所 要 
覆盖 默认 操作 ， 是 因为 我 们 只 想 让 正则 表达 式 影 响 第 1 行 。 

* s/^/«h1»/ 在 行 的 开头 (^) 添加 «nis 标签 。 

。 分 号 (6G) 用 于 分 隔 命令 。 

e s/$/«V/h1»/ 在 行 的 结尾 ($) 添加 </his 标签。 

。 命令 p 会 打印 受 影响 的 那 一 行 〈 第 1 行 )。 与 -n 不同， 后 者 会 打印 所 有 行 。 

。 最 后 命令 gq 会 结束 程序 ， 这 样 sed 程序 就 只 会 处 理 第 1 行 。 

。 所 有 的 操作 都 是 针对 rime.txt 文件 执行 的 。 











这 行 命令 还 有 另 一 种 写法 ， 即 用 -e 选项 分 别 引 导 每 个 命令 。 我 当然 更 喜欢 使 用 带 
分 号 的 写法 ， 因 为 那 种 写法 更 简短 。 


sed -ne 's/^/«hl»/' -e 's/$/<\/h1>/p' -e 'q' rime.txt 


可 以 将 这 些 命令 写 到 文件 里 ， 比 如 这 里 所 示 的 文件 hl.sed (该 文件 就 在 之 前 所 说 的 
代码 库 里 ) : 

#!/usr/bin/sed 

s/^/«h1»/ 

s/$/<\/h1>/ 

q 


若 要 运行 该 文件 ， 请 在 与 rime.txt 同一 个 路 径 或 文件 夹 里 运行 如 下 命令 


sed -f hl.sed rime.txt 


2.7.2 ”用 Per 为 文本 加 标签 
， 我 将 展示 如 何 用 Perl 来 做 类 似 的 事 。Perl 是 由 Larry Wall 于 1987 年 创立 的 
用 程序 设计 语言 。 它 以 对 正则 表达 式 的 强大 支持 和 文本 处 理 能 力 而 闻名 。 


在 命令 提示 符 中 键入 


























perl -v 
然后 回 车 ， 看 看 你 的 系统 中 是 否 已 经 安装 了 Perl。 该 命令 系统 中 Perl 的 版 本 
信息 或 者 返回 错误 (参见 2.9 75), 
在 命令 提示 符 中 键入 : 

perl -ne 'if ($. == 1) ( s/^/«h1»/; s/$/<\/hl>/m; print; }' rime.txt 





就 可 以 得 到 和 sed 示例 中 一 样 的 输出 结果 : 





<h1>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</h1> 
以 下 是 这 个 Perl 命令 的 执行 过 程 解析 。 


。 perl 调用 了 Perl 程序 。 

。 了 

。 -e 选项 允许 在 命令 行 ( 而 不 用 在 文件 ) 中 提交 程序 代码 。 
a PS M 是 个 特殊 的 变量 ， 它 匹配 当前 行 。 
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。 第 一 个 替换 命令 s 先 找到 第 一 行 的 开头 (^). 然后 插入 «enis 标签 。 

。 第 二 个 替换 命令 s 搜寻 行 结尾 (s) 再 插入 «/ni» 标签 。 

。 替换 命令 最 后 的 m (多 行 ) a 表示 将 本 行 单 独处 理 ， 这样 ，$ 就 只 匹配 第 
一 行 的 结尾 而 不 会 匹配 整个 文本 的 结尾 

最 后 在 标准 输出 设备 〈 屏 幕 ) 中 打印 出 结果 。 

所 有 这 些 操作 都 是 针对 rime.txt 文件 的 。 


同样 可 以 将 这 些 命令 放 入 程序 文件 中 ， 比 如 示例 代码 库 中 的 hl.pl 文件 。 











#!/usr/bin/perl -n 


if ($. == 1) ( 
s/^/«h15»/; 
s/$/«N/h1»/m; 
print; 


} 
然后 在 rime.txt 的 同一 个 目录 下 ， 执 行 如 下 命令 





perl hl.pl rime.txt 


用 Perl 语言 实现 相同 任务 的 方式 很 多 ， 也 许 这 不 是 为 文本 添加 标记 的 最 有 效 的 方 
法 。 很 可 能 本 书 上 市 后 ， 我 又 会 想 出 使 用 Perl (或 其 他 工具 ) 的 更 有 效 的 方法 。 希 
望 你 也 能 够 想到 。 


下 一 章 我 们 将 讨论 边界 和 零 宽 度 断 言 。 


2.8 本 章 所 学 


如 何 匹 配 字符 串 字 面值 

如 何 匹配 数字 和 非 数 字 字 符 

。 什么 是 global (全 局 ) 模式 

。 字符 简写 式 与 字符 组 的 比较 

。 如 何 匹配 单词 与 非 单词 字符 

。 如 何 匹配 空白 字符 

。 如 何 使 用 点 号 匹配 任意 字符 

。 什么 是 dotall 模式 

。 如 何 使 用 RegExr、sed 以 及 Perl 在 文本 中 插入 HTML 标记 














N 
A 
3 
N 
tk 


2.9 相关 资源 


。 可 以 在 http:/www.gskinner.com/RegExr 找到 RegExr 及 其 桌面 版 本 (http://www. 
gskinner.com/RegExr/desktop/), RegExr 内 fi 在 Flex 3 中 (http:// www.adobe. 
com/products/flex.html) H. (k $f F ActionScript JE Wl] Æ 35 3X, 91 8€. (http://www. 
adobe.com/devnet/actionscript.html) 。 其 使 用 的 正则 表达 式 与 JavaScript 中 的 相似 
(参见 https://developer.mozilla.org/en/JavaScript/Reference/Global_Objects/RegExp) . 

。 Git 是 一 个 稳定 的 版 本 控制 系统 (http://git-scm.com), GitHub 是 Git 项 目的 在 线 
代码 库 (http:Wgithub.com)。 如 果 你 熟悉 Git 或 者 Subversion, Mercurial 等 最 新 
的 版 本 控制 系统 ， 我 建议 你 使 用 GitHub 代码 库 来 获取 本 书 的 示例 代码 。 

e HTML5 (http://www.w3.org/TR/html5/) 是 W3C HTML 的 第 5 个 主要 修订 版 ， 
是 在 万 维 网 上 发 布 内 容 所 使 用 的 标记 语言 。 它 处 于 草稿 状态 好 几 年 了 ， 且 会 定期 
修订 ， 但 它 作为 HTML 4.01 和 XHTML 的 后 续 版 本 已 得 到 浏览 器 普遍 支持 。 

。 Unix/Linux 操作 系统 中 一 般 都 有 sed 程序 ， 包 括 Mac 系统 (Darwin 或 BSD 版 )。 
通过 Cygwin (http://www.cygwin.com) 及 类 似 的 发 布 版 ， 也 可 以 在 Windows 上 
使 用 sed， 在 http://gnuwin32.sourceforge.net/packages/sed.htm 中 还 可 以 找到 独立 
版 本 (当前 版 本 为 4.2.1， 参见 http:Wwww.gnu.org/software/sed/manual/sed.html) 。 

。 你 可 能 需要 安装 Perl 才能 运行 本 章 的 Perl 代码 。Mac OS X Lion 默认 带 有 Perl， 
多 数 Linux 系统 也 是 。 如 果 你 使 用 的 是 Windows， 则 需要 安装 合适 的 Cygwin 安 
装 包 ( 参 见 http:Wwww.cygwin.com) ,或 者 从 ActiveState 网 站 下 载 最 新 的 安装 包 ( 请 
访问 http://www.activestate.com/activeperl/downloads) 。 关 于 安装 Perl 的 详细 信息 ， 
请 访问 http:Wlearn.perl.org/installing/ 或 者 http://www.perl.org/get.html。 








要 确定 你 的 系统 中 是 否 已 经 有 Perl， 可 在 shell 提示 符 中 输入 以 下 命令 。 请 先 打开 
命令 行 或 shell 窗口 ， 例 如 Mac 中 的 Terminal 窗口 (在 Application/Utilities 路 径 
F), 或 者 是 Windows 的 命令 行 窗 口 (打开 开 始 菜 单 ， 在 菜单 栏 底部 的 文本 框 中 键 
A cmd)。 在 命令 提示 符 中 键入 : 








perl -v 


如 果 Perl 已 经 安装 好 且 能 够 运行 ， 则 这 个 命令 会 返回 Perl 的 版 本 信息 。 笔 者 的 Mac 
上 运行 的 是 Lion 操作 系统 ， 已 用 编译 源 代码 的 方式 (参见 http://www.cpan.org/ 
src/5.0/perl-5.16.0.tar.gz) 安装 了 最 新 版 本 的 Perl (5.16.0 是 编写 本 书 时 最 新 的 版 
本 )。 键 入 以 上 命令 上 时， 笔者 得 到 了 以 下 信息 : 

This is perl 5, version 16, subversion 0 (v5.16.0) built for darwin-2level 


Copyright 1987-2012, Larry Wall 
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Perl may be copied only under the terms of either the Artistic License or the 
GNU General Public License, which may be found in the Perl 5 source kit. 


Complete documentation for Perl, including FAQ lists, should be found on 
this system using "man perl" or "perldoc perl". If you have access to the 
Internet, point your browser at http://www.perl.org/, the Perl Home Page. 


在 编译 源 代 码 和 生成 程序 时 ，perl 和 perldoc 都 安装 在 /usr/local/bin 中 ， 你 需要 
将 其 加 入 你 的 系统 路 径 中 。 关 于 设置 路 径 变量 的 信息 ， 请 参见 http://java.com/en/ 
download/help/path.xml。 








本 章 的 重点 是 断言 。 断 言 标 记 边 界 ， 但 是 并 不 耗 用 字符 。 也 就 是 说 ， 字 符 并 不 会 返 
ISIS, Wr ath ok PRR ES (zero-width assertion) 。 零 宽度 断言 不 匹配 字 
符 ， 而 是 匹配 字符 串 中 的 位 置 。 其 中 的 一 些 ， 比 如 ^ 和 $， 也 叫做 锚 位 符 (anchor), 


本 章 讨 论 的 边界 有 以 下 几 种 : 


。 行 或 者 字符 串 的 起 始 与 结束 位 置 ; 
单词 边界 (两 种 ) ， 

主题 词 的 起 始 与 结束 位 置 ， 

。 引用 字符 串 字 面值 的 边界 。 


本 章 继续 使 用 RegExr， 但 这 回 我 们 变 点 儿 花 样 ， 使 用 Safari 浏览 器 (当然 ， 你 可 以 
使 用 任何 浏览 器 ) ， 如 图 3-1 所 示 。 目 标 文本 还 是 rime.txt 的 前 12 行 。 在 Safari X 
览 器 中 打开 http://gskinner.com/regexr， 然 后 从 代码 库 中 将 rime.txt 的 前 12 行 复 制 到 
下 方 的 文本 框 中 。 
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^How.*CountryA.$ 
[Vi global | | ignoreCase | | extended |v] dotali [vj multiline 








THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 


ARGUMENT. 





How a Ship having passed the Line was driven by Storms to the cold. 












































It is an ancyent Marin pi rui 
And he stoppeth one of 
"By thy long grey beard a ying eye 








Matches any character, except for line breaks if 
|| | dotall is false. 


RegExp: /*How.*Country\.$/gsm 
intry\.$ 











& 3-1; Safari 中 的 RegExr 


3.1 行 的 起 始 与 结束 
就 像 之 前 看 到 的 那样 ， 要 匹配 行 或 字符 串 的 起 始 要 使 用 脱 字 符 (U+005E) : 


^ 


根据 上 下 文 , ^ 会 匹配 行 或 者 字符 串 的 起 始 位 置 ， 有 时 还 会 匹配 整个 文档 的 起 始 位 
置 。 而 上 下 文 则 依赖 于 应 用 程序 和 在 应 用 程序 中 所 使 用 的 选项 。 


如 你 所 知 ， 若 要 匹配 行 或 字符 串 的 结尾 位 置 要 使 用 美元 符 : 
$ 


请 确定 RegExr 中 的 multiline (多 行 ) 选项 被 勾 选 。global (全 局 ) 选项 在 打开 
RegExr 时 默认 色 选 ， 但 是 本 例 中 你 可 以 勾 选 也 可 以 不 勾 选 该 选项 。 如 果 不 色 选 
multiline 选项 ， 整 个 目标 文本 被 视 做 一 个 字符 串 。 


在 上 方 的 文本 框 中 键入 下 面 这 个 正则 表达 式 : 











^How.*CountryN.$ 


它 会 匹配 以 单词 How 开头 的 整 行 。 请 注意 结尾 的 点 号 之 前 有 一 个 反 斜 枉 ， 它 对 点 号 
进行 转 义 ， 这 样 点 号 就 被 解释 为 字面 值 。 如 果 不 对 点 号 转 义 ， 它 就 会 匹配 任意 字符 。 
如 果 想 匹配 作为 字面 值 的 点 号 ， 则 必须 将 点 号 转 义 或 者 将 其 放 入 字符 组 中 (参见 第 
5 章 )。 





如 果 不 勾 选 multiline 选项 会 是 什么 情况 ?高 亮 显 示 功 能 
multiline 但 选 dotall 的 情况 下 ， 键 入 : 


N> 
E 
ar 
x 
Br 
zi 
X 
[Ez 





^THE.*VM?$ 
可 以 看 到 它 匹配 了 整个 文本 。 


dotall 选项 表示 点 号 除了 匹配 其 他 字符 之 外 ， 还 会 匹配 换行 符 。 取 消 勾 选 dotall 选 
项 ， 则 该 表达 式 什么 也 不 匹配 。 而 以 下 表达 式 : 





^THE.* 


则 匹配 第 一 行 。 再 点 击 dotall 选项 ， 全 部 文本 都 会 被 匹配 。 不 需要 使 用 \?$ 来 匹配 
文本 的 结尾 。 


3.2 单词 边界 与 非 单 词 边 界 
我 们 已 经 多 次 遇 到 使 用 No 的 情况 了 。 它 匹配 单词 边界 。 请 尝试 : 

\bTHE\b 
(在 勾 选 global 选项 的 情况 下 ) 这 个 表达 式 会 匹配 第 一 行 的 两 个 THE。 就 像 ^ 和 $ 
一 样 ，\b 是 个 零 宽 度 断 言 ， 表 面 上 它 会 匹配 空格 或 者 是 行 起 始 ， 而 实际 上 它 匹 配 的 
是 个 零 宽 度 的 不 存在 的 东西 。 你 有 没有 注意 到 第 二 个 THE 两 边 的 空格 是 没有 标 亮 
的 ? 这 是 因为 它们 不 是 匹配 的 部 分 。 这 个 理解 起 来 不 是 很 容易 ， 但 你 可 以 通过 观察 
它 匹 配 和 不 匹配 的 内 容 来 理解 。 
你 还 可 以 匹配 非 单词 边界 。 非 单词 边界 匹配 除 单 词 边 界 之 外 的 位 置 ， 比 如 单词 或 者 
字符 串 中 的 字母 或 数字 。 要 匹配 一 个 非 单词 边界 ， 试 一 下 : 


\Be\B 


看 看 它 匹 配 了 什么 (参见 图 3-2)。 可 以 看 到 它 匹 配 了 小 写字 母 e， 而 匹配 的 字母 。 
的 两 边 都 是 其 他 字母 或 者 是 非 单词 字符 。 零 宽度 断言 不 会 匹配 两 边 的 字符 ， 但 它 会 
识别 文字 e 的 两 边 是 否 是 非 单词 边界 。 

















I obal DD anorecase | C] extended | [V] dotan | LI 


[THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
ARGUMENT. 


How a Ship having passed the Line was driven by Storms to the cold Country towards the South Pole; and how from 
thence she made her course to the tropical Latitude of the Gréat Pacific Ocean; and of the strange things that befell; 
and in what manner the Ancyent Marinere came back to his own Country. 


L 


ye is mm ancyent Mannike; 
he stoppeth one of three: 
y hy long grey bein and duy glittering eye 
Now wherefore sto 








Matches any character, except for line breaks if 
dotall is false. 


RegExp: /\Be\B/as 
pattern: \Be\B 


o LE groups: 











图 3-2: 用 \B 来 匹配 非 单词 边界 

在 有 些 应 用 程序 中 ， 指 定单 词 边界 的 另 一 种 方法 是 使 用 : 
\< 

来 指定 单词 的 开头 ， 而 使 用 
\> 


来 指定 单词 结尾 。 这 是 比较 旧 的 语法 ， 在 很 多 最 新 的 正则 表达 式 应 用 程序 中 无 法 使 
用 。 但 在 有 些 情 况 下 ， 这 种 语法 就 很 有 用 ， 因 为 它 不 会 像 \b 那样 匹配 任意 单词 边 
界 ， 而 是 允许 你 分 别 匹配 单词 的 开头 或 结尾 。 


如 果 你 的 系统 上 有 vi 或 者 vim， 可 以 用 这 类 编辑 器 试 一 下 。 即 使 你 没 用 过 vim, ix 
也 很 简单 ， 只 要 按照 以 下 步骤 做 即 可 。 在 命令 行 或 者 shell 窗口 中 ， 将 路 径 改 为 诗 文 
所 在 的 地 方 ， 再 用 这 个 命令 打开 : 


vim rime.txt 


然后 输入 以 下 查找 命令 : 
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/\> 
再 按 回 车 键 (Enter) 或 返回 键 (Return), Æ vim 中 使 用 斜 杠 符 (/) 开始 一 次 查 
找 。 请 观察 光标 ， 可 以 看 到 本 次 查找 过 程 会 找到 单词 的 结尾 。 按 下 按键 n 可 重复 查 
HR. FA: 





/\< 


再 按 回 车 键 (Enter) 或 返回 键 (Return)。 这 次 查找 会 找 出 单词 的 开头 。 要 退出 
vim, A zz 即 可 。 


这 一 语法 也 可 用 于 grep. AA 20 世纪 70 4EfC, grep (R sed 一 样 一 直 是 Unix 系统 
的 主要 工具 。(20 世纪 80 年 代 ， 我 一 个 同事 的 车 牌 上 面 就 写 着 GREP.) 在 shell 提 
示 符 中 试 试 这 个 命令 : 








grep -Eoc '\<(THE|The|the)\>' rime.txt 


-E 选项 表示 要 使 用 扩展 的 正则 表达 式 (ERE)， 而 不 是 grep 默认 使 用 的 基本 正则 表 
XX (BRE). -o 选项 代表 结果 只 显示 一 行 中 与 模式 相 匹 配 的 那 部 分 。-c 选项 的 意 
只 返回 结果 的 数量 。 单 引号 中 的 模式 会 对 THE、The 或 者 the 进行 整 词 匹配 。 
就 是 \< 和 \> 帮 你 寻找 的 。 

A 
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也 就 是 找到 的 单词 的 数目 。 
另 一 方面 ， 如 果 不 使 用 \< 和 \>， 结 果 则 不 同 。 这 样 做 : 








grep -Eoc '(THE|The|the)' rime.txt 
得 到 的 数字 就 是 : 
327 


为 什么 ? 因为 该 模式 只 匹配 整 词 和 任意 包含 该 词 的 字符 序列 。 这 就 是 \< 和 \> 能 派 
上 用 场 的 一 个 原因 。 


3.3 Absa iL 
与 铺位 符 ^ 相似 ， 以 下 简写 式 匹配 主题 词 的 起 始 ; 


NA 
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d ue or 中 都 可 以 使 用 的 ， 但 可 以 在 Perl 和 PCRE 中 
使 用 。 要 匹配 主题 词 的 结尾 ， 可 以 使 用 : 





\Z 
在 某 些 上 下 文中 还 可 用 
NE 


peregrep 是 带 有 PCRE 库 的 grep 版 本 。( 如 何 得 到 pcregrep 请 参见 3.7 节 。) 安装 之 
后 ， 要 使 用 以 上 语法 ， 则 这 样 写 : 





pcregrep -c '\A\s*(THE|The|the)' rime.txt 


单词 the inu 首 附近 位 置 且 之 前 有 (一 个 或 多 个 ) 空格 的 次 数 为 108 x, ME 
-c 会 返回 这 个 次 数 。 接 下 来 输入 命令 : 





pcregrep -n '(MARINERE|Marinere) (.)?\Z' rime.txt 


一 命令 会 匹配 一 行 〈 主 题词) 尾部 的 MARINERE 或 Marinere， 之 后 是 任何 可 选 
字符 ， 在 本 例 中 可 选 字符 就 是 标点 符号 或 者 字母 S。( 点 号 两 边 的 括号 不 是 必需 的 。) 


可 以 看 到 输出 为 : 


1:THE RIME OF THE ANCYENT MARINERE, 





10: It is an ancyent Marinere, 

38: The bright-eyed Marinere. 

63: The bright-eyed Marinere. 

106z "God save thee, ancyent Marinere! 
282: "I fear thee, ancyent Marinere! 
702: He loves to talk with Marineres 


peregrep 的 -n 选项 在 输出 的 每 行 起 始 处 显示 行 号 。pcregrep 与 grep 的 命令 行 选 项 
十 分 相似 。 要 了 解 所 有 选项 ， 输 入 : 


pere --help 


3.4 ”使 用 元 字符 的 字面 值 


可 以 用 
\Q 
All 
\E 





之 间 的 字符 集 匹 配 字符 串 字 面值 。 
为 了 展示 这 一 点 ， 在 RegExr 下 方 文本 框 中 输入 以 下 元 字符 ; 
.^$*«?| OG 0\- 


这 15 个 元 字符 在 正则 表达 式 中 有 特殊 含义 ， 用 来 编写 匹配 模式 。( 连 字符 在 字符 组 
的 方 括号 中 用 来 表示 范围 。 但 在 其 他 情况 下 ， 则 无 特殊 含义 。) 


如 果 你 在 RegExr 上 方 的 文本 框 中 尝试 匹配 这 些 字符 ， 则 不 会 看 到 任何 结果 。 为 什 
AWE? 因为 RegExr 会 认为 这 是 个 正则 表达 式 而 不 是 字符 串 字面 值 。 现 在 试 一 下 
NOSNE 


它 将 匹配 $. AA No A NE 之 间 的 任意 字符 都 会 被 解释 为 普通 字符 (参见 图 3-3) 
( 记 住 ， 可 以 在 元 字符 之 前 加 一 个 \ 使 其 匹配 字面 值 。) 





(a)r [f] | (|) [a] [d gskinner.com/Re: 








| = CH Google 








O00 








RegExp: \Q$\E/m 
pattern: \QS\E 
flags: m 

0 capturing groups: 














图 3-3: 使 用 元 字符 的 字面 值 


3.5 添加 标签 


在 RegExr 中 ， 取 消 勾 选 global 但 勾 选 multiline， 点 击 Replace 标签 ， 然 后 在 第 一 个 
文本 框 (在 图 3-4 中 标号 为 1) 中 输入 : 
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^pa 
这 会 匹配 第 一 行文 本 并 将 其 捕捉 。 然 后 在 下 一 个 文本 框 (标号 为 2) 中 输入 以 下 


内 容 : 


<!DOCTYPE html>\n<html lang="en">\n<head><title>Rime</title></head>\n 
<body>\n<h1>$1</h1> 


输入 替换 文本 的 时 候 ， 你 会 注意 (标号 为 3 的 文本 框 中 的 ) 主题 词 文本 在 显示 结果 
的 文本 框 (标号 为 4) 中 变 了 ， 包 含 了 你 刚刚 添加 的 标记 (参见 图 3-4)。 





(4)»] (f) [&| [c (a) E gskinner.com/RegExr/ 











«IDOCTYPE html>\n<html lang=" «title» </head>\n<body>\n<hi>$1</h1> o9 


THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. &) 





ARGUMENT. 


How a Ship having passed the Line was driven by Storms to the cold Country towards the South Pole; and how from 
thence she made her course to the tropical Latitude of the Great Pacific Ocean; and of the strange things that befell; 
and in what manner the Ancyent Marinere came back to his own Country. 


<IDOCTYPE htmi> € 


«html lang="en"> 1 
«head» <titie>Rime</title></head> E any character, except for line breaks if 
ly dotall is false. 








«body» 
«h1»THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. «/h1» 














图 3-4. 用 RegExr 添加 标记 


RegExr 很 好 地 展示 了 添加 标记 的 一 种 方式 ， 但 它 也 有 自己 的 局 限 性 ， 比 如 说 它 不 能 
将 结果 保存 为 文件 。 因 此 ， 我 们 不 能 把 目光 仅 局 限于 浏览 器 。 


3.5.1 使 用 sed 添 加 标签 

第 2 章 我 们 已 经 看 到 了 ， 在 RegExr 中 能 完成 的 工作 ， 完 全 可 以 使 用 sed 在 命令 行 环 
境 下 做 到 。sed 中 的 插入 命令 (i) 允许 你 在 文件 或 字符 串 中 的 某 个 位 置 之 前 插入 文 
本 。 而 与 i 命令 相反 的 是 命令 a， 它 在 某 个 位 置 之 后 添加 文本 (后 面 会 用 到 a). 


以 下 命令 从 第 1 行 开始 插入 HTMLS 的 doctype (文档 类 型 ) 和 其 他 标记 : 
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sed '1 i\ 

<!DOCTYPE html>\ 
<html lang=\"en\">\ 
<head>\ 
<title>Rime</title>\ 
</head>\ 

<body> 


s/^/«h1»/ 
s/$/<\/h1>/ 


q' rime.txt 


EMR RAL (\) 允许 你 在 该 流 中 插入 新 行 而 不 会 提前 执行 命令 。 引 号 前 的 反 斜 
杠 将 引号 转 义 为 字面 值 。 


正确 运行 这 个 sed 命令 会 得 到 如 下 输出 : 








<!DOCTYPE html» 

«html lang="en"> 

«head» 

<title>The Rime of the Ancyent Mariner (1798)</title> 
«/head» 

«body» 

<h1l>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</h1> 


以 上 sed 命令 保存 在 实例 代码 库 中 的 top.sed 文件 中 。 用 以 下 命令 运行 这 些 代 码 : 


sed -f top.sed rime.txt 


可 以 得 到 与 前 面 的 命令 相同 的 输出 。 要 将 输出 保存 到 文件 ， 则 可 以 把 输出 重 定位 到 
一 个 文件 中 ， 比 如 : 


sed -f top.sed rime.txt > temp 


除了 会 在 屏幕 上 显示 结果 ， 重 定位 的 那 部 分 (>temp) 还 会 将 输出 保存 到 文件 temp 中 。 





3.5.2 ”使 用 Perl 添 加 标签 
下 面 尝试 用 Perl 完成 同样 的 工作 。 先 不 解释 ， 试 一 试 这 个 : 


perl -ne 'print "<!DOCTYPE html>\ 

«html lang=\"en\">\ 
<heads<title>Rime</title></head>\ 

<body>\ 

W IESS; == 

s/^/«h1»/; s/$/<\/h1>/m; print;exit;' rime.txt 


与 之 前 的 sed 命令 比较 一 下 。 有 哪些 地 方 相似 ， 哪 些 地 方 不 同 ? sed 命令 稍微 简单 
一 些 ， 但 笔者 认为 Perl 的 功能 强大 很 多 。 





以 下 是 该 命令 的 工作 过 程 。 


变量 $. 表示 当前 行 ， 使 用 if 语句 测试 。 如 果 if 语句 返回 true 〈 真 )， 则 当前 
行 就 是 第 1 行 。 

24 Perl 用 if 语句 找到 第 1 行 时 , 它 会 打印 文档 类 型 (doctype) 和 几 个 HTML 标签 。 
和 在 sed 中 一 样 ， 这 里 也 需要 将 引号 转 义 。 

第 一 个 替换 操作 在 行 起 始 位 置 插入 enis 标签 ， 第 二 个 替换 操作 在 行 尾 处 插入 
«/hl» 标签 。 第 二 个 替换 操作 结尾 处 的 m 表示 使 用 多 行 修饰 符 。 这 就 保证 了 该 命 
令 会 识别 第 一 行 的 结尾 。 如 果 没 有 m， 则 $ 会 匹配 该 文件 的 结尾 。 

命令 print 打印 替换 结果 。 
命令 exit 则 会 立即 结束 Perl 程序 。 否 则 ， 因 为 有 -n 选项 ， 它 会 循环 执行 文件 
的 每 一 行 ， 但 这 里 不 需要 。 














以 上 命令 要 键入 很 多 内 容 。 我 将 这 些 Perl 代码 放 入 名 为 top.pl 的 文件 中 ， 也 可 以 在 
代码 库 中 找到 。 


#!/usr/bin/perl -n 


了 (SEE 

print "<!DOCTYPE html>\ 

«html lang=\"en\">\ 

<head>\ 

<title>The Rime of the Ancyent Mariner (1798)</title>\ 
</head>\ 

<body>\ 

We 


s/^/«h15»/; 
s/$/«N/h1»/m; 
print; 

exit; 


) 


使 用 合集 运行 这 个 文件 : 


perl top.pl rime.txt 


得 到 的 结果 与 前 面 是 一 样 的 ， 只 是 形式 上 稍 有 不 同 。( 就 像 在 sed 中 一 样 ， 你 可 以 用 
> 将 输出 重 定位 到 文件 中 。) 


下 一 章 会 涉及 选择 、 分 组 和 后 向 引用 ， 还 有 其 他 一 些 概念 。 第 4 章 见 1 


3.6 本章 所 学 
+ 如 何 使 用 错位 符 ^ 或 $ 匹配 行 首 或 行 尾 








。 如 何 匹配 单词 或 非 单词 边界 

。 如 何 用 \A 和 \z (或 \z) 匹配 主题 词 的 起 始 与 结束 位 置 
。 如 何 用 \Q 和 \E 将 字符 串 标 引 为 字面 值 

。 如 何 用 了 RegExr、sed 和 Perl 为 文本 加 标签 


3.7 ”相关 资源 

。 vi 是 一 个 支持 正则 表达 式 的 Unix 编辑 器 ， 它 于 1976 年 由 Sun 公司 的 联合 创始 人 
Bill Joy FFA. vim 编辑 器 最 初 由 Bram Moolenaar 开发 ( 见 http://www.vim.org)， 
它 取代 了 vi, Bill Joy 和 Mark Horton 执笔 的 一 篇 关于 vi 的 早期 论文 可 以 在 这 里 
找到 : http://docs.freebsd.org/44doc/usd/12.vi/paper.html。 自 从 1983 年 第 一 次 使 
用 vi 开始 ， 我 几乎 每 天 都 在 使 用 它 。 相 比 于 其 他 文本 编辑 器 ， 使 用 vi 可 以 事 半 
功 倍 。 它 功能 十 分 强大 ， 虽 然 使 用 它 已 经 近 30 年 了 ， 但 我 经 党 还 会 发 现 一 些 新 
功能 。 

。 grep 是 一 个 使 用 正则 表达 式 来 查找 和 打印 字符 串 的 Unix 命令 行 工具 。grep 由 
Ken Thompson F 1973 年 发 明 ， 它 被 认为 是 从 ed 编辑 器 的 g/re/p (global/ 
regular expression/print) 命令 衍生 而 来 。 后 来 又 出 现 了 功能 更 强大 的 egrep (也 称 
grep-E)， 但 grep 没有 被 淘汰 。egrep 使 用 了 扩展 的 正则 表达 式 (ERE) 并 引入 了 
更 多 的 元 字符 ,比如 |、+、?、(、)。fgrep (grep-F) 使 用 字符 串 字 面值 来 查找 文件 ; 
es. *. | 这 样 的 元 字符 则 没有 特殊 含义 。 在 Linux 系统 和 Mac OS X 的 Darwin 
系统 中 都 可 以 使 用 grep。 也 可 以 从 Cygwin 的 GNU 发 布 版 (http:Wwww.cygwin. 
com) 中 获得 grep ,或 者 从 http://gnuwin32.sourceforge.net/packages/grep.htm 下 载 。 

。 PCRE (http://www.pcre.org) 英文 全 称 Perl Compatible Regular Expression， 是 
一 个 与 Perl 5 兼容 的 正则 表达 式 的 C 函数 库 (8 位 和 16 hz), ， 也 包含 其 他 实现 的 
一 些 特 性 。pcregrep 是 一 个 8 位 的 类 grep 工具 ， 它 允许 你 在 命令 行 中 使 用 PCRE 

库 的 功能 。 运 行 命令 sudo port install pcre， 即 可 通过 Macports (http:// 
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www.macports.org) 为 Mac 安装 pcregrep。( 前 提 是 安装 了 Xcode， 见 https:// 

















developer.apple.comytechnologies/tools/。 需 要 注册 。) 
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选择 、 分 组 和 后 向 引用 





我 们 已 经 在 前 面 的 示例 中 见 过 分 组 了 。 分 组 对 文本 加 括号 以 帮助 执行 某 种 操作 ， 
比如 : 


。 在 两 种 或 更 多 可 选 模 式 中 选择 一 个 ， 

。 创建 子 模式 ， 

。 捕获 一 个 分 组 以 便 之 后 进行 后 向 引用 ， 
。 对 组 合 的 模式 使 用 某 项 操作 (如 量词 ) ， 
。 使 用 非 捕获 分 组 ; 

。 原子 分 组 (高 级 )。 











本 章 我 们 会 依旧 使 用 rime.txt 中 “The Rime of the Ancyent Mariner” 的 文本 ， 除 此 
之 外 还 会 使 用 一 些 专 门 设计 的 例子 。 但 这 一 次 我 们 要 使 用 RegExr 的 桌面 版 程序 和 
sed 等 其 他 工具 。 可 以 从 http://www.regexr.com 下 载 RegExr HJ Windows, Mac 和 
Linux 版 的 桌面 程序 (用 Adobe Air 编写 的 )。 在 RegExr 的 网 页 中 ， 点 击 页 面 右 下 
角 的 Desktop Version (桌面 版 ) 链接 来 获取 更 多 信息 。 


4.1 选择 操作 


简单 地 说 ， 选 择 操作 可 在 多 个 可 选 模式 中 匹配 一 个 。 例 如 ， 你 想 在 “The Rime of 
the Ancyent Mariner” 中 找 出 the 出 现 过 多 少 次 ， 包 括 THE, The 和 the 等 形式 。 为 
此 ， 就 可 以 使 用 选择 操作 。 
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双击 图 标 打开 RegExr 桌面 应 用 程序 。 它 看 起 来 很 像 在 线 版 本 ， 但 好 处 是 在 你 的 机 
器 本 地 和 运行， 因此 上 不 了 网 也 没关系 。 


我 已 将 整 首 诗 复制 粘贴 到 RegExr 的 桌面 版 中 供 之 后 的 练习 使 用 。 我 是 在 运行 OS X 
Lion 的 Mac 上 使 用 RegExr 桌面 版 的 。 
在 顶部 的 文本 框 中 输入 : 


(the | The | THE) 


你 会 看 到 下 方 文本 框 里 诗 文中 所 有 的 the 都 被 标 亮 (参见 图 4-1). TE Aaa) 
看 更 多 的 结果 。 





















HE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
ARGUMENT. 


How a Ship having passed the Line was driven by Storms to the cold Country towards the South Pol 
land how from thence she made her course to the tropical Latitude of the Great Pacific Ocean; and of f tha 
Istrange things that befell; and in what manner the Ancyent Marinere came back to his own Country. 


It is an ancyent Marinere, 
And he stoppeth one of three: 
"By thy long grey beard and ud glittering eye 
"Now wherefore stoppest me: 















Matches any character, except for line breaks if 

dotall is false. 

"The Bridegroom's doors are open'd wide 
"And I am next of kin; 

"The Guests are met, the Feast is set,-- 

"May'st hear the merry din.- 










Exp: /(the|The|THE)/g 
pattern: (the|The|THE) 






1 capeurt Ing groups: 
group 1: (the|The|THE) 














图 4-1: 在 RegExr 桌面 版 中 使 用 选择 操作 


可 以 使 用 一 个 选项 来 使 分 组 更 简短 。 借 助 选项 ， 可 以 指定 查找 模式 的 方式 。 例 如 ， 
选项 


(2i) 
让 你 的 模式 不 再 区 分 大 小 写 。 因 此 原来 带 选 择 操 作 的 模式 可 以 简写 成 


(?i)the 











f£ RegExr 中 试 一 下 ， 看 看 效果 如 何 。 还 可 以 在 RegExr P 4J3€ ignoreCase 来 设 定 不 
区 分 字母 大 小 写 ， 这 两 种 方式 都 可 以 。 表 4-1 中 列 出 了 以 上 选项 以 及 其 他 各 种 选项 
和 修饰 符 。 


表 4-1: 正则 表达 式 中 的 选项 











az 项 描 述 支持 平台 

(?d) Unix 中 的 行 Java 

(2i) 不 区 分 大 小 写 PCRE, Perl, Java 
(2J) 允许 重复 的 名 字 PCRE 

(?m) 多 行 PCRE, Perl, Java 
(?s) 单行 (dotall) PCRE, Perl, Java 
(?u) Unicode Java 

(?U) 默认 最 短 匹配 PCRE 

(?x) 忽略 空格 和 注释 PCRE, Perl, Java 
(?-7) 复原 或 关闭 选项 PCRE 





* 参见 http:Wwww.pcre.org/pcre.txt 中 的 “Named Subpatterns” (命名 子 模式 ) 。 
接 下 来 我 们 在 grep 中 使 用 选择 操作 。 表 4-1 中 的 选项 并 不 适用 于 grep, MAREE 
用 原来 的 选择 模式 。 要 对 单词 the 出 现 一 次 或 多 次 的 行 的 数目 进行 统计 ， 且 不 区 分 
大 小 写 ， 则 用 : 





grep -Ec "(the|The|THE)" rime.txt 


可 以 得 到 这 个 结果 : 
327 


这 个 结果 还 不 能 说 明 一 切 。 欲 知 原因 ， 请 继续 阅读 。 
以 下 是 对 上 面 的 grep 命令 的 分 析 。 


。 -E 选 项 表示 使 用 扩展 的 正则 表达 式 (ERE) ， 而 不 用 基本 正则 表达 式 (BRE)。 本 
例 省 去 了 将 括号 和 竖 线 符 转 义 的 步骤 ， 如 果 使 用 BRE 则 必须 进行 转 义 ， 像 这 样 
\ (THE\|The\ | the\) o 

。 -c 选 项 返回 匹配 的 行 数 (不 是 匹配 的 单词 )。 

。 括号 将 对 the、The 以 及 THE 的 选择 操作 归 为 一 个 分 组 。 

。 坚 线 符 将 备 选 项 分 开 ， 对 备 选 项 求 值 的 顺序 是 从 左 至 右 。 


下 面 的 方法 会 将 单词 的 每 一 次 出 现 都 作为 一 行内 容 返 回 ， 这 样 就 可 以 得 到 实际 的 出 
现 次 数 : 








grep -Eo "(the|The|THE)" rime.txt | wc -1 
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这 个 命令 返回 的 是 : 
412 

以 下 是 对 命令 的 分 析 。 

。 -o 选 项 表示 只 显示 一 行 中 与 指定 模式 匹配 的 部 分 ， 而 由 于 导向 wc 的 管道 〈|)， 
该 选项 的 作用 不 太 直 观 。 

。 在 此 上 下 文中 ， 坚 线 符 将 grep 命令 的 输出 通过 管道 导向 we 命令 的 输入 。wc 是 单 
词 计 数 命令 ， 而 -1 对 输入 的 行 数 进行 统计 。 

为 什么 有 327 与 412 这 样 大 的 差异 呢 ? 因为 -c 给 出 的 是 匹配 的 行 的 数目 ， 但 是 一 

行 中 可 能 有 多 个 单词 匹配 。 若 使 用 -o 和 wc -1， 则 指定 单词 不 管 以 哪 一 种 形式 出 

现 ， 每 次 出 现 都 会 作为 单独 的 一 行 统计 ， 这 样 结果 值 就 会 更 大 。 

要 使 用 Perl 执行 同 种 匹配 ， 则 这 样 写 : 








perl -ne 'print if /(the|The|THE)/' rime.txt 
或 者 更 好 的 方式 是 不 用 选择 操作 ， 而 使 用 前 面 提 到 的 (oi) 选项 : 
perl -ne 'print if /(?i)the/' rime.txt 


再 进一步 改善 ， 就 是 将 i 修饰 符 加 在 定 界 符 之 后 : 





perl -ne 'print if /the/i' rime.txt 


结果 相同 ， 但 命令 是 越 简 单 越 好 。 表 4-2 中 列 出 了 更 多 的 修饰 符 (也 称 为 标记 符 )。 
请 与 表 4-1 中 的 选项 (两 者 相似 但 语法 不 同 ) 进行 比较 。 


表 4-2: Perl 语 言 中 的 修饰 符 (标记 符 )“ 















































修饰 符 描 X 
a 匹配 \d、\s、\w 以 及 处 于 ASCI 范围 内 的 POSIX 字符 
c 匹配 失败 后 则 停留 在 当前 位 置 
d 使 用 默认 的 本 地 平台 的 规则 
g 全 局 匹配 
i 匹配 时 不 区 分 大 小 写 
1 使 用 当前 位 置 的 规则 
m 多 行 字 符 串 
p 保留 匹配 的 字符 串 
s 将 字符 串 看 做 一 行内 容 
u 匹配 时 使 用 Unicode 规则 
x 忽略 空格 及 注释 





* 参见 http://perldoc.perl.org/perlre.html#Modifiers , 





4.2 "FAX 


多 数 情况 下 ， 提 到 正则 表达 式 中 的 子 模 式 (subpattern)， 就 是 指 分 组 中 的 一 个 或 多 
个 分 组 。 子 模式 就 是 模式 中 的 模式 。 多 数 情况 下 ， 子 模式 中 的 条 件 能 得 到 匹配 的 前 
提 是 前 面 的 模式 得 到 匹配 ， 但 也 有 例外 。 子 模式 的 写法 可 以 有 很 多 种 ， 这 里 我 们 主 
要 关注 括号 中 的 子 模式 。 

从 某 种 意义 上 说 ， 你 之 前 所 见 的 模式 : 


(the | The | THE) 


有 三 个 子 模式 : the 是 第 一 个 子 模式 ，The 是 第 二 个 ， 而 THE 是 第 三 个 。 但 是 这 种 
情况 下 ， 匹 配 第 二 个 子 模 式 不 依赖 于 是 否 匹 配 第 一 个 。( 最 左边 的 模式 会 首先 匹配 。) 


而 在 以 下 的 模式 中 ， 子 模式 依赖 于 前 面 的 模式 : 
(t|T)h(eļeir) 


通俗 地 讲 ， 这 个 模式 会 匹配 字面 值 t 或 T， 然 后 是 一 个 h， 接 下 来 就 是 一 个 e 或 者 是 
eir。 相 应 地 ， 这 个 模式 会 匹配 以 下 所 有 情况 : 

* the; 

B The; 

* their; 

* Their, 

在 以 上 情况 中 ， 第 二 个 子 模式 (e |eir) 依赖 于 第 一 个 子 模式 (CT). 


括号 对 于 子 模式 不 是 必需 的 。 下 面 是 一 个 使 用 字符 组 的 子 模式 示例 : 





\b [tT] h[ceinry] *\b 


这 个 模式 会 匹配 the 或 The £A thee, thy 以 及 thence 等 单词 。 两 个 单词 边界 (Nb) 
表示 该 模式 只 匹配 整个 单词 ， 而 不 会 匹配 单词 中 的 某 几 个 字母 。 


以 下 是 对 这 个 模式 的 解析 。 


。 \b 匹配 单词 起 始 边界 。 

。 [tT] 是 字符 组 , 它 匹配 小 写字 母 t 或 者 大 写字 母 T。 可 以 将 其 看 做 是 第 一 个 子 模式 。 

。 然后 匹配 (或 尝试 匹配 ) 小 写字 母 h。 

。 第 二 个 也 就 是 最 后 一 个 子 模式 也 表示 为 字符 组 [ceinry] ， 其 后 用 量词 * RARE 
个 或 多 个 。 
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。 最 后 ， 该 模式 以 另外 一 个 \b 结束 。 





= 


: 正则 表达 式 的 术语 经 常 是 含义 相近 但 使 用 范围 锭 异 。 为 了 在 本 书 中 解释 子 
p^ 。 模式 和 其 他 概念 ， 我 查阅 了 很 多 资料 并 试 着 将 它们 的 表述 统一 起 来 。 但 肯 

UM 定 会 有 人 争辩 说 字符 组 不 是 子 模式 。 我 的 观点 是 它们 与 子 模式 起 到 的 作用 
一 样 ， 所 以 两 者 可 以 归 为 一 类 。 























4.3 捕获 分 组 和 后 向 引用 
当 一 个 模式 的 全 部 或 者 部 分 内 容 由 一 对 括号 分 组 时 ， 它 就 对 内 容 进 行 捕获 并 临时 存 
储 于 内 存 中 。 可 以 通过 后 向 引用 重用 捕获 的 内 容 ， 形 式 为 : 


Nd 
或 
$1 


这 里 和 1 或 s13 引 用 的 是 第 一 个 捕获 的 分 组 ， 而 \2 或 $2 引用 第 二 个 捕获 的 分 组 ， 以 
此 类 推 。sed 只 接受 \1 这 种 形式 ， 而 Perl 则 两 种 都 接受 。 





























Va 
as 最 开始 sed 支持 范围 从 和 1L 到 和 9 的 后 向 引用 ， 但 现在 已 经 没有 这 样 的 限制 了 。 
n 





下 面 再 展示 一 下 后 向 引用 的 使 用 方法 。 我 们 将 使 用 它 来 重新 排序 诗 文中 的 一 行 词 ， 
在 此 先 跟 作者 柯 勒 律 治 道 个 歉 。 点 击 RegExr 的 Repalce 标签 ， 在 顶部 的 文本 框 中 输 
入 下 面 的 模式 : 








(It is) (an ancyent Marinere) 


向 下 滚动 主 文本 框 〈 第 三 个 文本 区 ) 直到 你 可 以 看 到 被 标 亮 的 那 一 行 ， 然 后 在 第 二 
个 文本 框 中 ， 输 入 : 





$2 $1 
就 可 以 看 到 在 最 下 面 的 文本 框 中 那 一 行 被 重新 排列 为 : 
an ancyent Marinere It is, 


结果 参见 图 4-2, 





































And he stoppeth one of three: 
"By thy long grey beard and thy glittering eye 
"Now wherefore stoppest me? 
"The Bridegroom's doors are open'd wide 


Matches any character, except for line breaks if 
dotall is false. 












an ancyent Marinere It is, 
And he stoppeth one of three: 

"By thy long grey beard and thy glittering eye 
"Now wherefore stoppest me? 


"The Bridegroom's doors are open'd wide 


RegExp: /(It is) (an ancyent Marinere)/ 
pattern: (It is) (an ancyent Marinere) 
flags: 


ags: 
2 capturing groups: 

group 1: (It is) 

group 2: (an ancyent Marinere) 








图 4-2. 用 $1 和 $2 进行 后 向 引用 
要 用 sed 得 到 相同 结果 ， 可 以 这 样 做 : 


sed -En 's/(It is) (an ancyent Marinere)/\2 Ml/p' rime.txt 


829: 


an ancyent Marinere It is, 


和 RegExr 中 一 样 。 为 了 帮助 你 理解 每 个 细节 ， 下 面 我 们 来 分 析 一 下 这 个 sed 命令 。 


-EE 选项 仍然 是 调用 ERE (扩展 的 正则 表达 式 ) ， 因 此 ， 括 号 可 以 直接 当成 字面 值 
来 使 用 了 。 

-n 选项 覆盖 打印 每 一 行 的 默认 设置 。 

替换 命令 搜索 与 文本 “lt is an ancyent Marinere,” 匹 配 的 内 容 ， 再 将 其 捕获 放 入 
两 个 分 组 中 。 

替换 命令 还 将 捕获 的 文本 重 排 为 先是 后 向 引用 \2 的 内 容 再 是 \1 的 内 容 ， 再 将 匹 
配 的 文本 替换 为 重 排 后 的 内 容 并 输出 。 

替换 命令 结尾 处 的 p 表示 要 打印 该 行 。 


Perl 中 类 似 的 命令 会 做 相同 的 事 : 
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perl -ne 'print if s/(It is) (an ancyent Marinere)/\2 \1/' rime.txt 
注意 该 命令 使 用 了 \1 风格 的 语法 。 当 然 ， 你 也 可 以 使 用 $1 语法 : 

perl -ne 'print if s/(It is) (an ancyent Marinere)/$2 $1/' rime.txt 
我 喜欢 Perl 允许 不 必 在 循环 中 跳 转 就 能 打印 指定 行 的 方式 。 
但 关于 和 输出， 还 有 一 点 要 注意 的 是 : 

an ancyent Marinere It is, 


在 转换 过 程 中 革 些 单词 首 字 母 的 大 小 写 被 打 乱 了 。Perl 可 以 使 用 \u 和 \1 来 修正 这 
个 问题 ， 就 是 这 样 : 





perl -ne 'print if s/(It is) (an ancyent Marinere)/\u$2 \1$1/' rime.txt 
现在 结果 看 起 来 好 多 了 : 

An ancyent Marinere it is, 
接 下 来 解释 一 下 原因 。 


。 \L 语法 并 不 匹配 任何 字符 ， 而 是 会 将 紧 接 其 后 的 字母 变 为 小 写 
。 Nu 语法 将 紧 接 其 后 的 字母 变 为 大 写 

WRT (未 展示 ) 将 紧 接 其 后 的 文本 字符 囊 全 部 变 为 大 写 。 
VL 指令 (未 展示 ) 将 紧 接 其 后 的 文本 字符 串 全 部 变 为 小 写 。 


这 些 指 令 在 文本 中 出 现 其 他 指令 (比如 \1 或 \E， 作 为 文字 使 用 的 字符 串 的 结尾 ) 
i 都 是 起 作用 的 。 请 自己 动手 试 试 这 些 指令 


之 前 
命名 分 组 
命名 分 组 (named group) 就 是 有 名 字 的 分 组 。 这 样 ， 就 可 以 通过 名 字 (而 不 是 数 
) 来 引用 分 组 。 下 面 展示 一 下 Perl 语言 中 如 何 使 用 命名 分 组 : 


























4» 


perl -ne 'print if s/(?«one»It is) (?«two»an ancyent Marinere) /\u$+{two} 
\1l$+{one}/' rime.txt 


我 们 来 看 看 这 个 命令 : 


。 在 括号 内 添加 ?<one> 和 ?<two> 将 分 组 分 别 命 名 为 one 和 two; 
e s+{one} 引用 名 为 one 的 分 组 ， 而 $+{two} 则 引用 名 为 two 的 分 组 。 


如 果 在 一 个 模式 中 有 分 组 被 命名 ， 那 么 你 还 可 以 重用 该 命名 分 组 。 解 释 一 下 这 句 话 





的 意思 ， 假 设 你 要 查找 含有 连续 六 个 0 的 字符 串 : 


000000 


这 个 例子 很 浅显 ， 但 可 以 说 明 其 工作 原理 。 用 这 一 模式 对 连续 三 个 0 的 分 组 命名 





(其 中 z 是 分 组 名 ， 可 以 任意 取 ) : 
(?<z>0{3}) 


然后 你 可 以 再 使 用 该 分 组 ， 就 像 这 样 : 





(?<z>0{3})\k<z> 
或 者 : 

(?<z>0{3})\k'z! 
或 者 : 


(?<z>0{3})\g{z} 





请 在 RegExr 中 尝试 一 下 看 看 结果 。 这 些 示 例 应 该 都 色 


EH. X 4-3 列 出 了 命名 分 组 可 


























能 使 用 的 各 种 语法 。 
表 4-3: 命名 分 组 的 语法 
语 法 T x 

(?«name»'') 命名 分 组 
(?name…) 另 一 种 命名 分 组 的 方式 
(?P<name>…) Python 中 的 命名 分 组 
\kename> f£ Perl 中 引用 分 组 名 
\k'name! 在 Perl 中 引用 分 组 名 
Ng (name] 在 Perl 中 引用 分 组 名 
\k {name} 在 .NET 中 中 引用 分 组 名 
(?P-name) 在 Python 中 中 引用 分 组 名 


4.4 非 捕获 分 组 

















还 有 一 种 分 组 是 非 捕 获 分 组 (Non-Capturing Group) 。 非 捕获 分 组 不 会 将 其 内 容 存 
储 在 内 存 中 。 在 你 并 不 想 引 用 分 组 的 时 候 ， 可 以 使 用 它 。 由 于 不 存储 内 容 ， 非 捕获 
分 组 就 会 带 来 较 高 的 性 能 ， 而 运行 本 书 的 简单 示例 很 难 察觉 到 性 能 的 提升 。 


还 记得 本 章 中 讨论 的 第 一 个 分 组 吗 ? 就 是 这 个 
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(the | The | THE) 
你 不 需要 任何 后 向 引用 ， 因 此 可 以 这 样 写 一 个 非 捕获 分 组 : 
(?:the|The|THE) 


回 到 本 章 开 头 ， 你 可 以 添加 选项 将 其 变 为 不 区 分 大 小 写 的 模式 ， 就 像 这 样 : 











(?i) (?:the) 


或 者 你 也 可 以 这 样 做 : 





(?: (?i) the) 


不 过 ， 下 面 这 种 写法 最 值得 推荐 : 





(?i:the) 


该 选项 i 可 以 放 在 问号 和 冒号 之 间 。 


原子 分 组 

另 一 种 非 捕 获 分 组 是 原子 分 组 (atomic group)。 如 果 你 使 用 的 正则 表达 式 引 警 进行 
回溯 操作 ， 这 种 分 组 就 可 以 将 回溯 操作 关闭 ， 但 它 只 针对 原子 分 组 内 的 部 分 ， 而 不 
针对 整个 正则 表达 式 。 其 语法 如 下 : 





(?>the) 
什么 时 候 你 会 想 使 用 原子 分 组 呢 ? 正则 表达 式 处 理 过 程 缓慢 的 一 个 因素 就 是 回溯 操 
作 。 其 原因 就 是 回调 操作 会 尝试 每 一 种 可 能 性 ， 这 会 消耗 时 间 和 计算 资源 。 有 时 它 
会 占用 大 量 时 间 。 回 湖 有 可 能 产生 巨大 的 负面 效应 ， 这 被 称 为 灾难 性 回溯 。 
使 用 像 re2 (http://code.google.com/p/re2/) 3X FÉRJAE I 89] 5 | S& AY (8 ER SE PH] Ee ES E , 
而 使 用 原子 分 组 可 以 关闭 正则 表达 式 的 部 分 回 询 操作 。 














Va 
^ 本 书 的 重点 是 介绍 语法 ， 不 讨论 性 能 调 优 问题 。 在 我 看 来 ， 原 子 分 组 主要 
ig. 与 性 能 相关 。 

4 





接 下 来 第 5 章 我 们 学 习 字 符 组 。 


45 ”本 章 所 学 
。 使 用 选择 操作 对 两 个 或 更 多 的 模式 进行 选择 








。 什么 是 选项 及 其 修饰 符 ， 如 何在 模式 中 使 用 它们 
。 各 种 类 型 的 子 模式 

。 如 何 使 用 捕获 分 组 和 后 向 引用 

。 如 何 使 用 命名 分 组 ， 如 何 引用 它 

。 如 何 使 用 非 捕获 分 组 

。 关于 原子 分 组 的 简单 介绍 


4.6 ”相关 资源 


* Adobe AIR BAN EET 你 使 用 HTML, JavaScript, Flash 以 及 ActionScript 
来 构建 Web 应 用 程序 ， 这 种 应 用 程序 是 独立 的 客户 端 应 用 ， 不 需要 使 用 浏览 器 。 
更 多 信息 请 查看 http://www.adobe.com/products/air.html。 

。 Python (http://www.python.org) 是 个 很 容易 理解 的 高 级 程序 设计 语言 。 它 有 一 
个 正则 表达 式 实现 (参见 http://docs.python.org/library/re.html ) 。 

。 .NET (http://www.microsoft.com/net) 是 一 个 Windows 平台 的 编程 框架 。 它 也 有 
正则 表达 式 实现 (http://msdn.microsoft.com/en-us/library/hs600312.aspx) 。 

。 更 多 有 关 原 子 分 组 的 说 明 可 在 http://www.regular-expressions.info/atomic.html 和 
http://stackoverflow.com/questions/6488944/atomic-group-and-non-capturing-group 


中 找到 。 
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BO 


字符 组 





这 一 章 ， 我 们 详细 讨论 一 下 字符 组 。 字 符 组 有 时 也 被 称 为 方 括号 表达 式 (bracketed 
expression) 。 字 符 组 有 助 于 匹配 特定 字符 或 者 特定 的 字符 序列 。 它 们 可 以 像 字 符 简 
写 式 那样 代表 一 大 批 字符 。 比 如 ，\a 匹配 的 字符 与 


[0-9] 
所 匹配 的 字符 一 样 。 
但 字符 组 更 有 和 针对 性 ， 因 此 用 途 比 简 写 式 更 广 。 


请 在 自己 使 用 的 正则 表达 式 处 理 器 中 尝试 以 下 示例 。 笔 者 在 Opera 中 使 用 Rubular, 
而 在 桌面 使 用 Reggy。 


要 做 这 个 试验 ， 请 在 网 页 的 主 文本 区 或 者 目标 区 域 输入 以 下 字符 串 : 


1" # $5 





ES NU (o PES Pe M sq db 

F 2 D 4 B 6 Vi 8 9 
>? 09 

E PWEDE VS AV Y Z 

e 


tæ UII 


« 
ABC 
[D X d 
abc f SQUIRT OR Im DAD NRO NY NW Z 
{ | } 


没有 必要 亲自 动手 输入 这 些 字 符 ， 在 本 书 配套 代码 库 中 的 ascii-graphic.txt 里 能 找到 
该 文本 。 
请 先 使 用 字符 组 来 匹配 一 个 英文 字符 集 。 本 例 中 ， 我 们 匹配 英文 元 音字 母 : 





[aeiou] 
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在 下 方 文 本 框 中 ， 小 写 的 元 音字 母 应 该 被 标 亮 了 (〈 见 图 5-1) 。 如 何 将 大 写 元 音字 母 
标 亮 ”如 何 同时 匹配 或 标 亮 小 写 和 大 写 元 音字 母 ? 























eoo Rubular: a Ruby regular expression editor and tester 
UR Rubular: a Ruby regu... x | + a 








€ > © & | Q web |rubular.com * | CSI ~ search with Google 








Your regular expression: 
/| [aeiou] 


Yourtest string: Match result: 














5-1: 4 Opera 浏览 器 中 使 用 Rubular 的 字符 组 功能 
还 可 以 使 用 字符 组 匹配 某 个 范围 的 字符 ， 比 如 





[a-z] 
匹配 的 是 从 a 到 z 的 小 写字 母 。 试 一 下 匹配 更 小 范围 的 字符 ， 比 如 从 a 到 f: 
[a-£] 
当然 你 还 可 以 指定 一 个 范围 的 数字 : 
[0-9] 
或 者 让 范围 更 小 : 
[3-6] 























现在 发 挥 一 下 想象 力 ， 如 果 你 想 匹配 10-19 的 偶数 ， 可 以 将 两 个 字符 组 合 起 来 写 ， 
像 这 样 ， 

\b [1] [24680] \b 
同 理 ， 也 能 想到 用 下 面 的 表达 式 查找 0-99 的 偶数 ， 


\b [24680] \b|\b[1-9] [24680] Vo 





54 | 第 5 章 


要 想 创 建 一 个 匹配 十 六 进 制 数 的 字符 组 怎么 做 呢 ? 这 里 给 出 一 个 提示 : 


[a-fA-F0-9] 


还 可 以 在 字符 组 内 使 用 简写 式 。 例 如 ， 要 匹配 空格 和 单词 字符 ， 可 以 创建 这 样 一 个 


[ a-zA-Z \t\n\r] 


但 是 更 容易 键入 。 


5.1 字符 组 取 反 


对 字符 组 取 反 的 语法 之 前 你 已 经 见 过 好 几 次 了 ， 这 里 我 就 简单 介绍 一 下 。 对 字符 组 
取 反 会 匹配 与 字符 组 内 容 不 匹配 的 字符 。 比 如 ， 如 果 你 不 想 匹 配 元 音字 符 ， 可 以 这 
样 写 (请 在 浏览 器 中 尝试 ， 再 参见 图 5-2) : 


[^aeiou] 


该 字符 组 起 始 位 置 的 脱 字符 (^) 的 意义 就 是 :“ 不 ， 我 不 想 匹 配 这 些 字符 。 Ole 
符 必须 出 现在 起 始 位 置 。) 











eee RegExr 2" 
EE Regexr 
€ > © a~ [ O we [askinner.com/Regexr/ h | (89 ~ search with Google J 









































图 5-2: 在 Opera 浏览 器 中 使 用 RegExr 测试 对 字符 组 取 反 





52 ”并 集 与 差 集 
字符 组 可 以 像 集合 那样 操作 。 事 实 上 ， 字 符 组 的 男 一 个 名 称 就 是 字符 集 (character set), 
不 是 所 有 的 实现 程序 都 支持 这 项 功能 ， 但 Java 支持 该 功能 。 


我 将 展示 一 个 叫做 Reggy 的 Mac 桌面 应 用 程序 (参见 5.5 15). (E; Preference (fa 
好 设置 ) 面板 中 (如 图 5-3 所 示 )， 我 将 Regular Expression Syntax (正则 表达 式 语 
ik) kA “Java”, ME Font} (在 Format 里 )， 为 了 阅读 方便 ， 我 将 字体 大 小 设 
为 24。 








-OD CC GES o mnnon 


Appearance 








EN | Matched string color 








(C) Colorize sub-matches 


Startup Defaults 





[ ] Use clipboard as Regular Expression 
[ Use clipboard as Testing String 





Updates 





M Check for updates on startup 


Regular Expression Syntax a 








| Java al 














图 5-3. Reggy 的 偏好 设置 
如 果 你 想 要 两 个 字符 组 的 并 集 ， 可 以 这 样 做 : 





[0-3[6-9]] 


正则 表达 式 处 理 器 会 匹配 0 到 3 之 间 的 数字 或 者 6 到 9 之 间 的 数字 。 图 5-4 展示 了 
这 在 Reggy 中 的 结果 。 


匹配 差 集 (实质 上 就 是 减 操作 ) : 





[a-z&&[^m-r]] 


这 匹配 a 到 z 之 间 的 字符 ,但 其 中 m 到 rf 之 间 的 字符 除外 (如 图 5-5 所 示 )。 




















eoo Reggy 


[0-3[6-9]] 











I" £$96&'()* -,-.] 
0123456789 

:; <=>? @ 
ABCDEFGHIJKLMNOPQRSTUV 
WXYZ 

pp. 
abcdefghijklmnopqrstuvwxyz 


{1}~ 











Match All. (Match Case ( Multiline 8 Matches Found 











5-4; Reggy 中 两 个 字符 组 的 并 集 








eoo Reggy 


[a-z&&[^m-r]] 











I"#$%&'()*4+,-./ 
0123456789 
1;<=>?7@ 
ABCDEFGHIJKLMNOPQRSTUV 
WXYZ 

Shae 
abcdefghijklmnopqrstuvwxyz 


{1} ~ 











match All Match Case. Multiline 20 Matches Found 


5-5; Reggy 中 两 个 字符 组 的 差 集 
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5.8. POSIX 字符 组 

POSIX (Portable Operating System Interface， 可 移植 操作 系统 接口 ) IEEE 维护 
的 一 系列 标准 。 其 中 包含 了 一 个 正则 表达 式 标准 (ISO/IEC/IEBE 9945:2009) ， 该 标 
准 提 供 了 一 套 命 名 的 字符 组 ， 其 形式 为 : 











[[:xxxx:]1] 





其 中 xxxx 是 名 字 ， 比 如 digit 或 者 word, 
要 匹配 字母 及 数字 ， 可 以 用 : 
[[:alnum:]] 


5-6 展示 的 是 在 Rubular 中 使 用 字母 及 数字 字符 组 的 情况 。 





IRI 




















eoo Rubular: a Ruby regular expression editor and tester P 
jm Rubular: a Ruby regu... x | + T 
€ > Ə o (Q we [rubularcom A | ($F ~ Search with Google ` 





Your regular expression: 
7\ [[:atnum:]] 


Your test string: Match result: 


MEM MM ME 日 EE 
"ETEEEPETETTETETITITTTTTI 


"ELETETTTETEEELEELETEELET 
DT 


make permalink clear fields 

















5-6: 在 Rubular 中 使 用 POSIX 字母 及 数字 字符 组 





还 有 一 种 方法 就 是 只 用 简写 式 \w。 哪 种 方法 写 起 来 简便 ， 是 POSIX 字符 组 还 是 简 
写 式 ? 当然 是 字符 最 少 的 方法 胜出 。 我 承认 自己 并 不 常 使 用 POSIX 字符 组 ， 但 是 还 
是 有 必要 了 解 一 下 。 


对 于 大 写 或 小 写 的 字母 ， 使 用 : 





[[:alpha:]1] 


如 果 你 想 匹 配 ASCII 范围 内 的 字符 ， 则 用 





[[:ascii:]] 

当然 ， 还 有 对 POSIX 字符 组 取 反 的 形式 : 
[[:^xxxx:]] 

如 果 想 匹配 非 字 母 字符 ， 可 以 使 用 : 
[[:^alpha:]] 

要 匹配 空格 或 制 表 符 ， 使 用 : 
[[:space:]] 

车 匹配 所 有 空白 字符 ， 则 用 
[[:blank:]] 

还 有 很 多 POSIX 字符 组 ， 如 表 5-175. 


表 5-1: POSIX 字 符 组 

































































字符 组 描 xh 
:alnum: 匹配 字母 及 数字 
:alpha: 匹配 字母 
:ascii: 匹配 ASCH 字符 (FE 128 个 ) 
:blank: c 配 空白 字符 
:ctrl:] 匹配 控制 字符 
:digit: 匹配 数字 
:graph: 匹配 图 形 字 符 

: lower: 匹配 小 写字 母 
:print: 匹配 可 打印 字符 
:punct: 匹配 标点 符号 
:space : 匹配 空格 字符 
:upper: 匹配 大 写字 母 
:word:] 匹配 单词 字符 
:xdigit:]] 匹配 十 六 进 制 数字 























下 一 章 专门 介绍 如 何 匹 配 Unicode 和 其 他 字符 。 
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9: 


Di 


4 本 章 所 学 


如 何 使 用 方 括号 表达 式 创 建 字 符 组 或 字符 集 
如 何在 字符 组 中 创建 一 个 或 多 个 范围 

如 何 匹配 0 到 99 范围 内 的 偶数 

如 何 匹配 十 六 进 制 数 

如 何在 字符 组 中 使 用 简写 式 

如 何 对 一 个 字符 组 进行 取 反 

如 何 得 到 字符 组 的 并 集 和 差 集 

什么 是 POSIX 字符 组 


5 WKF 


Mac 上 的 桌面 应 用 Reggy 可 以 在 http:Wwww.reggyapp.com 上 免费 下 载 。Reggy 
通过 改变 匹配 的 文本 的 颜色 来 显示 它 所 匹配 的 内 容 。 默 认 颜色 为 蓝 色 ， 你 可 以 在 
Reggy 菜单 的 Preference 中 修改 颜色 。 有 具体 是 在 其 中 的 Regular Expression Syntax 
(正则 表达 式 语 法 ) 中 选择 Java. 

Opera Next 浏览 器 ， 现 在 是 测试 版 ， 可 以 从 http://www.opera.com/browser/next/ 
下 载 。 

Rubular 是 由 Michael Lovitt 创建 的 在 线 Ruby 正则 表达 式 编 辑 器 ， 它 支持 1.8.7 
和 1.9.2 版 的 Ruby (参见 http://www.rubular.com) , 

请 到 http://mathworld.wolfram.com/EvenNumber.html 阅读 更 多 有 关 偶 数 的 内 容 ， 
零 也 归 为 偶数 。 

http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html 有 Java (1.6) 
的 正则 表达 式 实 现 文档 。 

可 以 在 http://www.ieee.org 找到 更 多 有 关 IEEE 及 其 他 POSIX 标准 的 信息 。 


























第 6 章 


匹配 Unicode 和 其 他 字符 





有 时 我 们 需要 匹配 ASCH 范围 之 外 的 字符 。ASCII (American Standard Code for 
Information Interchange， 美 国信 息 交 换 标准 代码 ) 定义 了 英文 字符 集 (A BIZ 
大 写 和 小 写字 母 ， 以 及 控制 字符 与 其 他 字符 )。 它 的 历史 已 经 很 信 了 ， 早 在 1968 
年 这 个 基于 拉丁 字母 的 含有 128 个 字符 的 字符 集 就 得 到 了 标准 化 。 那 时 个 人 电脑 、 
VisiCalc, fin, Web 都 还 没有 出 现 ， 而 现在 我 仍然 会 经 常 在 线 查询 ASCI 字符 表 。 


多 年 以 前 ， 我 刚 开始 自己 的 职业 生涯 的 时 候 ， 与 一 位 工程 师 同事 在 钱包 里 放 了 一 张 
ASCI 码 表 。 这 是 以 防 万 一 : 出 门 时 别 忘记 带 上 ASCH 码 表 。 


我 并 不 否认 ASCI 的 重要 性 ,但 是 现在 它 已 经 过 时 了 ， 尤 其 是 我 们 有 了 可 以 表示 
超过 10 万 个 字符 的 Unicode 标准 (http://www.unicode.org)。 然 而 ，Unicode thy 
有 完全 舍弃 ASCII， 它 将 ASCI 加 入 了 它 的 基本 拉丁 (Basic Latin) WAP (参见 
http://www.unicode.org/charts/PDF/U0000.pdf) 。 














本 章 ， 我 们 将 跳出 ASCII 的 小 圈子 ， 投 入 已 经 较为 普及 的 Unicode 的 世界 。 


本 章 第 一 个 示例 文本 是 代码 库 中 的 voltaire.txt 文件 ， 这 是 法 国 哲学 家 伏 尔 泰 
(1694 一 1778) 的 一 段 话 。 


Qu'est-ce que la tolérance? c'est l'apanage de l'humanité. Nous sommes tous 
pétris de faiblesses et d'erreurs; pardonnons-nous réciproquement nos sottises, c'est 
la premiére loi de la nature. 


翻译 成 英文 就 是 : 
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What is tolerance? It is the consequence of humanity. We are all formed of frailty 
and error; let us pardon reciprocally each other's folly—that is the first law of nature. 


这 段 话 的 意思 是 
什么 是 宽容 ? 它 是 人 性 的 产物 。 我 们 生来 都 有 缺陷 和 错误 ， 就 让 我 们 原谅 彼 
此 的 蠢 行 吧 1 这 才 是 自然 的 第 一 法 则 。 

6.1 匹配 Unicode 字 符 


有 很 多 方式 可 以 指定 Unicode 字符 (也 称 为 代码 点 )。 为 了 讲解 方便 ， 本 书 将 
Unicode 字符 看 做 ASCII 字符 范围 以 外 的 字符 ， 但 严格 说 来 这 并 不 准确 。 


先 将 伏 尔 泰 的 名 言 输入 到 Regexpal (http://www.regexpal.com) 中 ， 然 后 输入 这 个 
正则 表达 式 : 


Nu00e9 


\u 之 后 紧 跟 十 六 进 制 值 00e9 (这 里 不 区 分 大 小 写 ， 即 00E9 也 可 以 ) 。00e9 对 应 十 
进 制 值 233， 在 ASCH 范围 (0-127) 之 外 。 





注意 在 Regexpal 中 字母 E (小 写 e 加 上 一 个 重音 符 ) 被 标 亮 了 (参见 图 6-1)。 这 是 
因为 在 Unicode HF é 就 是 代码 点 U+00E9， 所 以 就 被 \uooe9 匹配 。 





























EET Li 
@ OO / regex tester-RegexPal x VL 

€ > Œ Q regexpal.com 3X 
ES regexpal 0.1.4 — a JavaScript regular expression tester Help Version History Feedback Book Blog 

| X9 (Case insensitive m (^$ match at line breaks (m) (C) Dot matches all (s; via XReaExp) Options Quick Reference | 
"Qu'est-ce qus ES tolgra st 1" apai age as "E d umani: uE us sommes tous pBtris de faiblesses et d'erreurs; 

pardonnons-n rBcipr e emen: me nos sottise: la premiére loi de la nature." -Voltaire (1694-1778) 


Need more power? Get RegexBuddy from JGsoft, a powerful regex tester & builder that inspired many of RegexPal's features 
9 Permalink :: © 2012 Steven Levithan :: Google Code :: Regex Syntax Highlighte: 























-1: 在 Regexpal 中 匹配 U+00E9 





Regexpal 使 用 的 是 JavaScript 的 正则 表达 式 实现 。JavaScript 也 允许 你 使 用 下 面 的 
语法 : 


\xe9 
请 在 Regexpal 中 试 一 下 ， 看 看 它 是 不 是 跟 Nuooeo 一 样 也 匹配 同一 个 字符 。 


让 我 们 在 另 一 个 正则 表达 式 处 理 引 擎 中 试 一 下 。 请 在 浏览 器 中 打开 http://regexhero. 
net/tester/, Regex Hero 是 用 .NET 编写 的 且 语 法 稍 有 不 同 。 将 文件 basho.txt 中 的 内 
容 放 入 标签 为 Target String WKAR, HARES AAPA EER (Matsuo 
Basho， 他 恰巧 是 在 伏 尔 泰 出 生 的 前 一 周 去 世 的 ) HER), 





以 下 是 该 诗 的 日 文 版 : 
古 池 
WEF OIA te 
水 O 音 
—EIHE (1644-1694) 


接 下 来 是 该 诗 的 英 译 版 : 


At the ancient pond 
a frog plunges into 
the sound of water. 
一 Basho (1644-1694) 


请 在 标签 为 Regular Expression 的 文本 区 中 键入 以 下 内 容 来 匹配 日 文 文本 的 部 分 








\u6c60 


这 是 单词 pond (池塘 ) 所 对 应 的 日 文字 符 的 代码 点 ， 该 字 会 在 下 方 被 标 亮 (参见 图 
6-2). 





另外 ， 你 可 以 试 一 下 匹配 长 破 折 号 〈 一 ) : 
\u2014 

或 者 短 破 折 号 C): 
\u2013 


现在 再 在 编辑 器 中 看 看 这 些 字符 。 
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eoo .NET Regex Tester | Regex Hero 
MÄ .NET Regex Tester | Regex Hero 
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器 ecmascript 

L ExplicitCapture 
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B 6-2: 在 Regex Hero 中 匹配 U--6c60 


使 用 vim 
如 果 你 的 系统 里 有 vim， 可 以 用 它 打开 basho.txt 文件 ， 如 下 所 示 : 


vim basho.txt 
现在 以 斜 线 ( /) 为 起 始 ， 输 入 下 面 一 行 来 查找 : 
/\%u6c60 


然后 键入 回 车 (Enter 或 Return)。 如 图 6-3 Prax, JERR 34 FCM A eA 
Abo X 6-1 列 出 了 可 以 设置 的 选项 。 在 \% 之 后 ， 你 可 以 使 用 x 或 x 来 匹配 0-255 
(0-FF) 范围 内 的 值 ， 使 用 匹配 256-65 535 (100-FFFF) 范围 内 的 四 位 十 六 进 
制 数 ， 还 可 以 用 立 来 匹配 65 536-2 147 483 647 (10000-7FFFFFFF) 范围 内 的 八 
位 十 六 进 制 数 。 这 样 就 能 涵盖 很 多 编码 ， 其 数量 远 远 超过 Unicode 现 有 的 字符 编 
码 数 量 。 

















6-3; fr Vim 中 匹配 U+6c60 


表 6-1: 在 Vim 中 匹配 Unicode 编 码 





首 字 符 最 大 字符 数 最 大 值 
x 或 X 2 255 (FF) 
u 4 65 535 (FFFF) 
U 8 2 147 483 647 (7FFFFFFF) 


6.2 用 八进制 数 匹 配 字 符 


还 可 以 使 用 八进制 数 来 匹配 字符 ， 八 进 制 数 以 8 为 基数 ， 使 用 数字 0 到 7 计数。 在 











正则 表达 式 处 理 器 中 ， 就 是 要 在 反 斜 线 () 后 加 三 位 数字 。 
比如 ， 以 下 八进制 数 : 


\351 


Nu00e9 


请 在 Regexpal 中 用 伏 尔 泰 的 文本 实验 一 下 。\351 匹配 6E， 键 入 的 内 容 少 了 一 点 儿 。 
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6.3 匹配 Unicode 字 符 属 性 

在 某 些 实现 (比如 像 Perl) 中 ， 还 可 以 匹配 Unicode 的 字符 属性 。 这 些 属性 包括 字 
符 是 否 是 字母 、 数 字 或 标点 符号 。 

现在 介绍 一 下 ack， 这 是 一 个 用 Perl 语言 编写 的 命令 行 工具 ， 它 跟 grep 功能 相似 
( 见 http://betterthangrep.com)。 系 统一 般 不 会 附带 这 个 程序 ， 用户 需 要 自己 下 载 并 
Bete, (BN 6.675), 





我 们 要 用 ack 来 处 理 席 勒 1785 年 的 作品 “An die Freude” 的 片段 (或 许 你 不 认识 ， 


e ear Ss 
这 是 德语 ) : 


An die Freude. 

Freude, schóner Gótterfunken, 
Tochter aus Elisium, 

Wir betreten feuertrunken 
Himmlische, dein Heiligthum. 
Deine Zauber binden wieder, 
was der Mode Schwerd getheilt; 
Bettler werden Fürstenbrüder, 
wo dein sanfter Flügel weilt. 


Seid umschlungen, Millionen! 
Diesen Kuf der ganzen Welt! 
Brüder, überm Sternenzelt 

muf ein lieber Vater wohnen. 


该 片段 中 有 几 个 有 趣 的 字符 ， 它 们 不 在 ASCII 的 范围 内 。 我 们 要 通过 属性 来 看 
看 这 首 诗 的 文本 内 容 。( 如 果 你 想 知 道 这 段 文字 的 意思 ， 可 以 将 其 输入 到 Google 
Translate 中 (http://translate.google.com) , ) 











在 命令 行 中 使 用 ack 时 ， 你 可 以 指定 查看 那些 属性 为 字母 (L) 的 字符 : 
ack '\pL' schiller.txt 
该 命令 会 将 字母 都 高 亮 显示 。 对 于 小 写字 母 ， 则 要 在 括号 中 使 用 n1: 


ack 'Np(L1)' schiller.txt 


括号 是 必需 的 。 对 于 大 写字 母 ， 则 是 Lu: 


ack '\p{Lu}' schiller.txt 


要 指定 不 符合 某 个 属性 的 字符 ， 则 使 用 大 写 P: 


ack '\PL' schiller.txt 





a 


这 个 命令 会 将 非 字母 字符 标 亮 。 





下 面 的 正则 表达 式 用 于 查找 非 小 写字 母 : 
ack '\P{L1}' schiller.txt 
而 这 个 正则 表达 式 则 高 亮 显 示 非 大 写字 母 : 


ack '\P{Lu}' schiller.txt 


在 另外 一 个 基于 浏览 器 的 正则 表达 式 测 试 程序 http://regex.larsolavtorvik.com 中 也 可 
以 这 样 做 。 图 6-4 展示 的 是 使 用 小 写字 母 属性 (\p{L1}) 标 亮 席 勒 诗 中 小 写字 母 的 


AUR. 
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PHPPCRE PHP POSIX JavaScript 


Pattern (start and end slashes will be added when needed) 
ttl) 


Replacement 


Subject 
An die Freude. 


Freude, schóner Gótterfunken, 
Tochter aus Elisium, 

Wir betreten feuertrunken 
Himmlische, dein Heiligthum. 
Deine Zauber binden wieder, 
was der Mode Schwerd getheilt; 
Bettler werden Fürstenbrüder, 
wo dein sanfter Flügel weilt. 


Seid umschlungen, Millionen! 
Diesen Kuf der ganzen Welt! 
Brüder, überm Sternenzelt 

muf ein lieber Vater wohnen. 





Matches 


An die Freude. Freude, schóner Gótterfunken, Tochter aus Elisium, Wir betreten 
feuertrunken Himmlische, dein Heiligthum. Deine Zauber binden wieder, was der Mode 
Schwerd getheilt; Bettler werden Fürstenbrüder, wo dein sanfter Flügel weilt. Seid 
umschlungen, Millionen! Diesen Kufs der ganzen Welt! Brüder, überm Sternenzelt mu& 
ein lieber Vater wohnen. 


Code 


preg match all('Ap(LI)/i', ‘An die Freude. Freude, schöner Götterfunken, Tochter aus 
Elisium, Wir betreten feuertrunken Himmlische, dein Heiligthum. Deine Zauber binden 
wieder, was der Mode Schwerd getheilt; Bettler werden Fürstenbrüder, wo dein sanfter 
Flügel weilt. Seid umschlungen, Millionen! Diesen KuR der ganzen Welt! Brüder, überm 
Sternenzelt muß ein lieber Vater wohnen.', $result); 





CH Google 


regex 0.9.6 


@preg_match_all 
(Opreg match 
Opreg_replace 
Opreg_split 


@ Caseless (i) 
O Multiline mode (m) 
O Dot all (s) 
O Extended (x) 
O Anchored (A) 
O Dollar end only (D) 
O Extra analysis of pattern (S) 
0 Pattern is ungreedy (U) 
O Extra (X) 
O Pattern is treated as UTF-8 (u) 
© Pattern order 
口 Set order 
口 Offset capture 
Split no empty 
Split delim capture 
Split offset capture 


Offset 


Limit 


Help PHP PCRE 

















6-4. 使 用 小 写字 母 属性 标 亮 字符 


xk 6-2 列 出 了 在 \p{property} B \P{property} 中 使 用 的 字符 属性 名 
http://www.pcre.org/pcre.txt 中 的 pcresyntax(3)) 。 还 可 以 用 属性 对 各 种 人 类 语言 


匹配 ， 具 体 参见 表 A-8。 
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表 6-2: 字符 属性 





















































属 性 dE x m 性 描 x 属 性 Ho x 
c 其 他 字符 M 标记 符号 Pi 起 始 标点 符 
Cc 控制 字符 Mc 空格 标记 Po 其 他 标点 符 
Cf 格式 字符 Me 环绕 标记 Ps 开始 标点 符 
cn 未 分 配 字符 Mn 非 空 格 标记 S 符号 
co 专用 字符 N 数字 Sc 货币 符号 
Cs 替代 字符 Nd 十 进 制 数字 Sk 修饰 符号 
字母 N1 字母 数字 Sm 数学 符号 
id 小 写字 母 No 其 他 数字 So 其 他 符号 
Lm 修饰 字母 P 标点 符号 z 分 隔 符 
Lo 其 他 字母 Pc 连接 标点 符 Zl 行 分 隔 符 
Lt 标题 大 写字 母 Pd 破 折 号 Zp 段落 分 隔 符 
Lu 大 写字 母 Pe 结束 标点 符 Zs 空格 分 隔 符 
L& Ll, Lu 或 者 Lt PE 最 终 标点 符 




















6.4 ”匹配 控制 字符 


如 何 匹配 控制 字符 呢 ? 虽然 你 很 少 会 在 文本 中 查找 控制 字符 ， 但 知道 如 何 做 也 不 
是 件 坏 事 。 在 示例 代码 库 中 ， 你 会 找到 ascii.txt 文件 (FE 128 行 )， 包 含 了 所 有 的 
ASCII 字符 ,一 个 字符 占 一 行 ( 所 以 有 128 行 )。 当 你 在 该 文件 中 查找 时 ， 若 找到 匹 
配 项 就 返回 一 行 。 这 个 文件 用 来 试 试 手 挺 不 错 的 。 








如 果 你 使 用 grep 或 ack 在 ascii.txt 中 查找 字符 串 或 控制 字符 ， 这 两 个 程序 
可 能 会 将 该 文件 当做 二 进 制 文件 。 如 果 是 这 样 ， 在 对 其 执行 一 个 脚本 时 ， 
若 找 到 匹配 程序 就 会 报告 “Binary file ascii.txt matches”( 二 进 制 文件 匹配 
成 功 ) 。 就 这 一 点 需要 注意 。 






































在 正则 表达 式 中 ， 可 以 像 这 样 来 指定 一 个 控制 字符 : 
Nex 
其 中 x 就 是 你 想 匹 配 的 控制 字符 。 


例如 ， 要 在 一 个 文件 中 查找 空 字符 ， 可 以 使 用 以 下 Perl 命令 : 





perl -n -e 'print if /\c@/' ascii.txt 


如 果 系 统 中 已 经 安装 了 Perl 且 运 行 正常 ， 就 可 以 得 到 以 下 结果 : 





原因 是 该 行 有 一 个 空 字符 ， 只 是 结果 中 看 不 到 这 个 字符 。 


符 从 文件 中 删除 ， 所 以 最 好 还 是 使 用 vim 编辑 器 。 








还 可 以 用 \o 来 查找 空 字符 。 试 一 下 这 个 命令 : 

perl -n -e 'print if /\0/' ascii.txt 
再 用 以 下 命令 来 查找 报警 字符 (BEL): 

perl -n -e 'print if /\cG/' ascii.txt 
这 将 返回 : 

7. Bell 
或 者 还 可 以 使 用 简写 式 : 

perl -n -e 'print if /\a/' ascii.txt 
要 查找 转 义 字符 ， 则 使 用 : 

perl -n -e 'print if /\c[/' ascii.txt 
它 的 结果 是 : 

27. Escape 
或 者 使 用 简写 式 : 

perl -n -e 'print if /\e/' ascii.txt 
如 何 匹 配 退 格 符 呢 ? 试 一 下 这 个 : 


perl -n -e 'print if /\cH/' ascii.txt 


| 


它 显示 : 
8. Backspace 
也 可 以 使 用 分 类 表达 式 来 查找 退 格 符 : 


perl -n -e 'print if /[\b]/' ascii.txt 


如 果 你 用 vim 之 外 的 编辑 器 打开 ascii.txt 文件 ， 编 辑 器 就 有 可 能 将 控制 字 





匹配 Unicode 和 其 他 字符 


69 





如 果 没 有 括号 ，\b 会 被 认为 是 什么 呢 ? 是 第 2 章 中 所 学 到 的 单词 边界 。 括 号 改变 了 
正则 表达 式 处 理 器 对 Nb 的 理解 方式 。 在 本 例 中 ，Perl 将 其 看 做 一 个 退 格 符 。 


X 6-3 列 出 了 本 章 中 匹配 字符 的 方法 。 
表 6-3: 匹配 Unicode 及 其 他 字符 


























R mH 描 xh 代 Hu 描 Ok 
\uxxxx Unicode (四 位 ) \cx 控制 字符 
\ xxx Unicode (两 位 ) NO 空 字 符 
\x{ xxxx} Unicode (四 位 ) Na 报警 符 
\x{xx} Unicode (两 位 ) Ve 转 义 符 
\ooo 八进制 (基数 为 8) [V5] 退 格 符 





该 表 总 结 了 本 章 的 内 容 。 下 一 章 我 们 详细 学 习 量 词 。 


6.5 本章 所 学 


如 何 使 用 \uxxxx 或 \xxx 匹配 任意 Unicode 字符 

如 何在 vim 中 使 用 \Sxxx, \SXxx, \Suxxxx 或 者 \SUxxxx IE 配 任意 Unicode 
字符 

如 何 用 八进制 格式 Nooo 匹配 0-255 范围 内 的 字符 

如 何 通 过 Np (x) 来 使 用 Unicode 字符 属性 

如 何 用 Ne 或 Nen 匹配 控制 字符 

更 多 有 关 如 何在 命令 行 中 使 用 Perl 的 内 容 (更 多 的 单行 Perl 命令 ) 








6.6 ”相关 资源 





我 是 使 用 vim (http://www.vim.org) 将 控制 字符 输入 到 ascii.txt 文件 中 的 。 在 
vim 中 ， 可 以 在 使 用 Ctrl+V 之 后 输入 适当 的 控制 字符 序列 ， 比 如 Ctrl+C 是 文本 
结束 字符 。 我 还 在 Ctrl+V 后 输入 字符 对 应 的 两 位 十 六 进 制 码 。 还 可 以 使 用 二 合 
字母 (digraph) 来 输入 控制 字符 ;在 vim 中 输入 : digraph 就 可 看 到 多 个 可 用 编 
码 。 要 输入 二 合 字母 ， 可 在 插入 (Insert) 模式 下 使 用 Ctrl+K 之 后 输入 两 个 相连 
的 字母 (例如 ，NU 表示 空 字符 ) 。 

RegexHero (http://regexhero.net/tester) 是 一 个 基于 .NET 的 正则 表达 式 实现 程序 ， 
‘EHH Steve Wortham 编写 ,在 浏览 器 中 运行 。 这 是 个 收费 程序 ,但 可 以 免费 试用 ， 
如 果 你 想 购 买 这 个 程序 ， 它 的 价格 还 算 合 理 (有 标准 版 和 专业 版 两 种 选择 )。 














e vim (http://www.vim.org) 是 Bill Joy 于 1976 年 发 明 的 vi 编辑 器 的 改进 版 本 。 
它 最 初 由 Bram Moolenaar 开发 。 对 于 不 熟悉 它 的 人 来 说 ， 它 显得 过 时 了 ， 但 就 
像 我 提 到 过 的 ， 它 功能 非常 强大 。 

。 工具 程序 ack (http://betterthangrep.com) 是 使 用 Perl 语言 编写 的 。 它 功能 上 与 
grep 相似 且 有 很 多 命令 行 选 项 ， 在 很 多 方面 都 超越 了 grep。 例 如 ， 它 使 用 的 是 
Perl 正则 表达 式 而 不 是 grep 之 类 的 基本 正则 表达 式 ( 不 使 用 -E)。 要 获取 安装 指南 ， 
请 参见 http://betterthangrep.com/install/。 我 使 用 的 是 “Install the ack executable." 
下 面 的 安装 指南 。 我 没有 使 用 curl 而 只 用 给 出 的 链接 下 载 了 ack， 之 后 就 将 该 脚 
本 复制 到 Mac 和 在 Windows 7 中 运行 Cygwin (http://www.cygwin.com) 的 PC 
的 /usr/bin 路 径 下 。 
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前 面 介 绍 过 一 些 量词 ， 而 本 章 来 细致 地 讲解 量词 。 


在 下 面 的 示例 中 ， 我 们 将 使 用 第 5 章 用 过 的 Mac 桌面 应 用 程序 Reggy (参见 图 
取消 勾 选 底部 的 Match All (匹配 所 有 ) 选项 。 





73D 


如 果 你 使 用 的 不 是 Mac， 可 以 在 本 书 之 前 提 到 的 某 个 程序 中 尝试 这 些 示 例 。 请 将 


triangle.txt 中 排 成 直角 三 角形 的 数字 粘贴 到 程序 中 。 


该 文件 位 于 示例 代码 库 中 。 























22 
333 

4444 

55555 
666666 
7777777 
88888888 
999999999 
0000000000 








(Match All, (Match Case 回 Multiline 


1 Match Found 
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7.44 ub. MEMKE 


这 说 的 可 不 是 小 时 候 的 你 ， 而 是 在 说 量词 。 这 些 形容 词 听 起 来 不 像 什么 好 特性 ， 但 
要 想 把 正则 表达 式 用 好 ， 却 一 定 要 了 解 量词 的 这 些 特性 。 


量词 自身 是 贪心 的 。 贪心 的 量词 会 首先 匹配 整个 字符 串 。 尝 试 匹配 时 ， 它 会 选 定 尽 
可 能 多 的 内 容 ， 也 就 是 整个 输入 。 量 词 首次 尝试 匹配 整个 字符 串 ， 如 果 失 败 则 回 退 
一 个 字符 后 再 次 尝试 。 这 个 过 程 叫 做 回溯 (backtracking)。 它 会 每 次 回 退 一 个 字符 ， 
直到 找到 匹配 的 内 容 或 者 没有 字符 可 堂 试 为 止 。 此 外 ， 它 还 记录 所 有 的 行为 ， 因 此 
相 较 另 两 种 方式 它 对 资源 的 消耗 最 大 。 它 先 “ 吃 ” 尽 所 有 的 字符 ， 然 后 每 次 “ 吐 ” 
Hak, HERA RAHA T. 


懒惰 (有 时 也 说 勉强 ) 的 量词 则 使 用 另 一 种 策略 。 它 从 目标 的 起 始 位 置 开始 尝试 寻 
找 匹 配 ， 每 次 检查 字符 串 的 一 个 字符 ， 寻 找 它 要 匹配 的 内 容 。 最 后 ， 它 会 尝试 匹配 
整个 字符 串 。 要 使 一 个 量词 成 为 懒惰 的 ， 必 须 在 普通 量词 后 添加 一 个 问号 (2). "E 
每 次 只 “ 吃 ” 一 点 。 

占有 量词 会 覆盖 整个 目标 然后 尝试 寻找 匹配 内 容 ， 但 它 只 演 试 一 次 ， 不 会 回 斋 。 占 
有 量词 就 是 在 普通 量词 之 后 添加 一 个 加 号 (+)。 它 不 “咀嚼 ”而 是 直接 “吞咽 ”， 
然后 才 想 知道 “了 吃 ” 的 是 什么 。 下 面 儿 节 将 逐一 展示 这 几 种 量词 。 


7.2 用 *、+ 和 ?进行 匹配 


如 果 你 在 Reggy 中 输入 了 前 面 的 数字 ， 现 在 就 可 以 开始 测试 了 。 首 先 使 用 Kleene 
星 号 ， 这 一 命名 是 为 了 纪念 正则 表达 式 的 发 明 人 Stephen Kleene。 如 果 像 下 面 这 样 
在 点 号 之 后 使 用 星 号 : 


























.* 


它 将 会 以 贪心 的 方式 匹配 主 文本 中 的 所 有 字符 (数字 )。 如 前 所 述 ，.* 匹配 任何 字 
符 零 次 或 多 次 。 下 方 文 本 框 中 的 所 有 数字 都 会 以 另 一 种 颜色 高 亮 显 示 。 一 本 早期 手 
册 对 Kleene 星 号 的 描述 如 下 : 








正则 表达 式 后 跟 一 个 “*” (Kleene 星 号 ) 表示 该 正则 表达 式 所 匹配 的 文本 
接连 出 现任 意 次 (dX), 


现在 试 一 下 








底部 数字 9 的 那 一 行 就 会 被 标 亮 。 现 在 再 试 一 下 : 
9." 


这 就 会 将 包含 数字 9 的 行 和 下 面 的 包含 数字 0 的 行 标 亮 。 因 为 勾 选 了 Multiline 选项 
(在 应 用 程序 窗口 底部 )， 点 号 会 匹配 行 之 间 的 换行 符 ， 正 常情 况 下 ， 它 不 会 匹配 换 
行 符 。 

要 匹配 一 个 或 多 个 9， 尝试 : 





9 十 


跟前 面 有 什么 不 同 呢 ? 暂时 看 不 出 来 ， 因 为 在 主 文本 中 有 九 个 9。 主 要 的 区 别 是 + 
会 寻找 至 少 一 个 9， 而 * 会 寻找 零 个 或 多 个 9。 


要 匹配 零 次 或 一 次 〈 可 选 )， 可 使 用 : 





9? 


这 只 会 匹配 第 一 次 出 现 的 9。 这 个 数字 9 是 可 选 的 ， 由 于 它 存 在 于 主 文本 中 ， 所 以 
它 会 匹配 并 被 标 亮 。 如 有 果 用 下 面 这 个 表达 式 : 


99? 
则 第 一 个 9 和 第 二 个 9 都 会 匹配 。 


表 7-1 列 出 了 基本 的 量词 以 及 它们 的 一 些 可 能 的 作用 。 这 些 量词 默认 是 贪心 的 ， 这 
意味 它们 在 第 一 次 尝试 时 会 尽 可 能 多 地 匹配 字符 。 


表 7-1: 基本 量词 





语 法 JH 述 
? TIAE (可 选 ) 
* NE 


7.3 匹配 特定 次 数 


使 用 花 括号 可 以 限制 某 个 模式 在 某 个 范围 内 匹配 的 次 数 ， 未 经 修饰 的 量词 就 是 贪心 
量词 。 例 如 : 








7{1} 
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VACA ROLY 7, ZEAR AAE, AED SBT : 
7(,) 
你 可 能 已 经 意识 到 了 
7 
和 
7(,) 
本 质 上 是 一 样 的， 而 : 
" 
和 
7(0,) 
也 是 相同 的 。 另 外 ， 
7? 
5 
7(0,1) 
也 是 一 样 的 。 
还 可 以 匹配 加 到 次， 比如 : 
7{3,5} 
会 匹配 三 个 、 四 个 以 及 五 个 7。 


可 以 看 出 ， 花 括号 〈 或 者 说 范围 语法 ) 是 最 灵活 和 精确 的 量词 。 表 7-2 总 结 了 这 些 
特性 。 


表 7-2 : 范围 语法 总 结 

















语 法 描 述 

{a} 精确 匹配 hn 次 

{n, } 匹配 n 次 或 更 多 次 
{m,n} 匹配 加 至 n 次 

{0,1} 与 ?相同 ( 零 次 或 一 次 ) 
{1,0} 与 + 相同 ( 一 次 或 更 多 ) 
(0,] 与 * 相同 ( 零 次 或 更 多 ) 








7.4 懒惰 量词 

现在 让 我 们 把 贪心 特性 放 到 一 边 而 来 看 看 懒惰 量词 。 理 解 懒惰 特性 最 好 的 方式 就 是 
看 看 实际 应 用 。 请 在 Reggy (确定 Match All 没有 被 匀 选 ) 中 尝试 用 问号 (2) 匹配 
零 个 或 者 一 个 5: 


5? 


第 一 个 5 被 标 亮 了 。 请 再 加 一 个 ? 来 使 量词 变 为 懒惰 的 : 


52? 





现在 它 看 起 来 不 匹配 任何 内 容 了 ， 其 原因 是 该 模式 已 经 是 懒惰 的 了 。 也 就 是 说 ， 它 
\ 会 强制 匹配 第 一 个 5。 懒 情 的 基本 特性 就 是 匹配 尽 可 能 少 的 字符 一 一 它 就 是 个 
“懒虫 ”。 

试 一 下 匹配 零 次 或 多 次 的 量词 : 


5*? 





它 也 不 会 匹配 任何 内 容 ， 因 为 它 可 以 选择 匹配 最 少 的 次 数 一 一 零 次 。 
再 试 一 下 匹配 一 次 或 多 次 : 











54? 
看 到 了 吧 ， 懒 情 特性 使 其 只 匹配 了 一 个 5。 它 只 需要 做 到 这 个 程度 就 可 以 了 。 
使 用 m 和 方式 匹配 时 就 更 为 有 趣 了 。 请 尝试 : 
5{2,5}? 
只 匹配 了 两 个 5， 而 不 像 贪心 量词 那样 匹配 五 个 。 


K 7-3 列 出 了 懒惰 量词 。 什 么 时 候 懒 情 式 匹配 最 实用 ? 如 果 你 想 匹 配 最 少 而 不 是 最 
多 数目 的 字符 ， 就 可 以 使 用 懒惰 量词 。 


表 7-3: 懒惰 量词 















































语 法 jÉ R 
?? HECERA (可 选 ) 
+? 懒惰 匹配 一 次 或 多 次 
*? Witt VC RE V OK 
(n)? iP DLA n 次 
{n,}? HEER n RKL 
{m,n}? MiG VCR m 3B n 次 
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7.5 占有 量词 

占有 式 匹 配 很 像 贪 心 式 匹配 ， 它 会 选 定 尽 可 能 多 的 内 容 。 但 与 贪心 式 匹配 不 同 的 
是 它 不 进行 回 湖 。 它 不 会 放弃 所 找到 的 内 容 ， 它 很 自私 ， 这 也 是 把 它 称 为 占有 式 
(possessive) 的 原因 。 它 紧 紧 “ 抱 ” 住 自己 所 选 的 内 容 ， 一 点 也 不 放弃 。 但 占有 量 
词 的 优点 是 速度 快 ， 因 为 无 需 回 湖 。 当 然 ， 匹 配 失 败 的 话 也 很 快 。 


Va 


x 





说 实话 ， 用 本 书 中 的 例子 你 很 难看 出 贪心 式 、 懒 惰 式 以 及 占有 式 量词 的 区 
Wa. 别 。 但 随 着 经 验 的 增长 ， 以 及 对 性 能 的 看 重 ， 你 会 发 觉 其 中 的 不 同 。 
ASN 
为 了 理解 这 一 点 ， 我 们 先 演 试 匹 配 以 零 开 头 的 多 个 零 ， 然 后 再 匹配 以 零 结尾 的 多 个 
零 。 在 Reggy 中 ， 先 确定 勾 选 Match Al1， 然 后 输入 以 下 以 零 开 头 的 表达 式 : 











0.*+ 


发 生 什么 了 ? 所 有 的 零 都 被 标 亮 了 。 存 在 一 个 匹配 。 占 有 式 的 匹配 看 起 来 和 贪心 式 
的 匹配 是 一 样 的 ， 但 没有 回 斋 。 可 以 证 明 一 下 。 输 入 这 个 带 有 结尾 零 的 表达 式 : 





-*+0 
没有 匹配 一 一 原因 就 是 没有 回 斋 。 它 一 下 就 选 定 了 所 有 的 输入 ， 不 再 回 过 来 查看 。 
它 “ 挥 赴 ” 了 自己 的 财产 。 它 一 下 子 设 在 结尾 找到 零 ， 也 不 知道 该 从 哪里 找 起 。 如 
果 将 加 号 去 掉 ， 它 会 找到 所 有 的 0， 因 为 它 变 回 贪心 式 匹配 了 。 





0 


当 你 知道 文本 中 的 内 容 时 ， 就 知道 在 哪里 可 以 找到 匹配 ， 这 时 你 应 该 会 使 用 占有 量 
词 。 你 不 在 乎 它 是 否 会 选 定 所 有 内 容 。 占 有 式 匹配 有 助 于 提高 匹配 的 性 能 。 表 7-4 
列 出 了 占有 量词 。 


表 7-4: 占有 量词 





语 法 描 述 
?4 占有 式 匹 配 零 次 或 一 次 (可 选 ) 
++ 占有 式 匹 配 一 次 或 多 次 
*4 占有 式 匹 配 零 次 或 多 次 
{n}+ 占有 式 匹配 nn 次 
{n, }+ 占有 式 匹 配 n 次 或 更 多 次 
{m,n}+ BANE mE nK 








7.6 本章 所 学 


贪心 式 、 懒 情 式 以 及 占有 式 匹 配 的 区 别 
。 如 何 匹配 一 次 或 多 次 (+) 
如 何 进 行 可 选 匹配 〈?， 和 零 次 或 一 次 ) 
如 何 匹 配 零 次 或 多 次 (*) 
。 如 何 使 用 (m, n} 量词 
。 如 何 使 用 贪心 、 懒 惰 (勉强 ) 以 及 占有 量词 


7.7 相关 资源 


引文 出 自 Dennis Ritchie ffl Ken Thompson, QED Text Editor (1970 年 贝尔 实验 室 
出 版 ) p.3 (参见 http://cm.bell-labs.com/cm/cs/who/dmr/qedman.pdf)。 
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第 8 和 章 


环视 





环视 是 一 种 非 捕获 分 组 ， 它 根据 某 个 模式 之 前 或 之 后 的 内 容 匹 配 其 他 模式 。 环 视 也 
PAE ER BS 


环视 包括 : 


。 正 前 瞻 ， 
。 反 前 瞻 ， 
。 正 后 顾 ，; 
。 反 后 顾 。 


本 章 将 逐个 展示 这 几 种 环视 的 用 法 。 开 始 先 用 桌面 版 的 RegExr， 然 后 再 使 用 Perl 和 
ack (grep 没有 环视 的 概念 ) 。 目 标 文本 仍然 使 用 柯 勒 律 治 的 诗 。 
8.1 1EBJBE 


假设 要 匹配 单词 ancyent， 且 要 求 紧 随 其 后 的 单词 是 marinere (为 与 文件 中 的 单词 一 
致 ， 我 采用 了 古代 拼写 法 )。 要 达到 这 个 目的 ， 我 们 可 以 使 用 正 前 瞻 。 


首先 在 RegExr 桌面 版 程序 中 试 一 下 。 将 下 面 这 个 不 区 分 大 小 写 的 模式 输入 到 顶部 
的 文本 框 内 : 











(?i)ancyent (?=marinere) 
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在 RegExr 中 ， 还 可 以 勾 选 ignoreCase 旁 的 复 选 框 来 指定 不 区 分 大 小 写 ， 
这 两 种 方式 都 是 可 以 的 。 


由 于 我 们 使 用 了 不 区 分 大 小 写 的 选项 (?i)， 就 不 必 担 心 模 式 中 用 的 大 小 写 形式 了 。 
现在 就 是 在 每 一 行 中 寻找 后 跟 marinere 的 单词 ancyent。 结 果 会 在 模式 区 域 下 面 的 
文本 区 中 标 亮 (参见 图 8-1) ; 但 只 有 模式 的 第 一 部 分 (ancyent) 是 被 标 亮 的 ， 环 
视 模 式 (Marinere) 不 会 标 亮 。 

















ARGUMENT. 


How a Ship 


i" 


And he 


group 1: 





THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 


and how from thence she made her course to the tropical Latitude of the Great Pacific Ocean; and of the 
strange things that befell; and in what manner the Ancyent Marinere came back to his own Country. 


It is an ancyent Marinere, 


"By thy long grey beard and thy glittering eye 
"Now wherefore stoppest me? 


"The Bridegroom's doors are open'd wide 
"And I am next of kin; 

"The Guests are met, the Feast is set, 一 

"May'st hear the merry din.-- 


RegExp: /(?i)ancyent (?=marinere)/g 
pattern: (?i)ancyent (?=marinere) 


1 capturing groups: 































| eas) 
(2<=ABC) 





(2?<!ABC) 


having passed the Line was driven by Storms to the cold Country towards the South Pole; ? 


stoppeth one of three: 








Positive lookahead. Matches a group after your 
main expression without including it in the 
result. 





(n 





B 8-1; RegExr 中 的 正 前 瞻 
现在 使 用 Perl 来 做 正 前 瞻 。 你 可 以 写 这 样 一 个 命令 : 


per 


1 -ne 'print if /(?i)ancyent (?=marinere)/' rime.txt 


其 输出 如 下 : 


THE R 
How a 


IME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
Ship having passed the Line was driven by Storms to the cold Country 


towards the South Pole; and how from thence she made her course to the tropical 
Latitude of the Great Pacific Ocean; and of the strange things that befell; 
and in what manner the Ancyent Marinere came back to his own Country. 


It is an ancyent Marinere, 
"God save thee, ancyent Marinere! 
"I fear thee, ancyent Marinere! 














该 诗 有 五 行内 容 中 的 ancyent 出 现在 marinere 之 前 。 如 果 要 求 ancyent 之 后 的 单词 以 
大 写 或 小 写字 母 m 开头 ， 该 如 何 做 呢 ? 可 以 这 样 











perl -ne 'print if /(?i)ancyent (?=m)/' rime.txt 
现在 除了 Marinere， 跟 在 后 面 的 还 可 以 有 man 和 Man: 


And thus spake on that ancyent man, 
And thus spake on that ancyent Man, 


ack 也 可 以 使 用 环视 功能 ， 这 是 因为 它 是 由 Perl 语言 编写 的 。ack 的 命令 行 界 面 与 
grep 十 分 相似 。 


试 一 下 这 个 命令 : 


ack '(?i)ancyent (?=ma)' rime.txt 





你 会 看 到 高 亮 显示 的 结果 ， 如 图 8-2 所 示 。 





























8-2: 在 终端 中 使 用 ack TIERS 
使 用 ack 时 ， 可 以 用 命令 行 选 项 -i EDK DADS, AEA ET (23) : 


ack -i 'ancyent (?-ma)' rime.txt 





车 要 在 ack 的 输出 中 添加 行 号 以 方便 计数 ， 可 以 采用 多 种 方法 。 比 如 可 以 加 上 -H 
选项 : 


ack -Hi 'ancyent (?=ma)' rime.txt 
也 可 以 添加 带 有 --output 选项 的 代码 : 
ack -i --output '$.:$ ' 'ancyent (?-ma)' rime.txt 


这 有 点 不 太 正 统一 一 关闭 了 标 亮 功 能 ， 但 它 确实 起 作用 了 。 


8.2 KAJI 
反 前 瞻 是 对 正 前 瞻 的 取 反 操作 。 这 意味 着 要 匹配 某 个 模式 时 ， 需 要 在 它 后 面 找 不 到 
含有 给 定 前 脆 模 式 的 内 容 。 反 前 脆 的 形式 是 : 


(?i)ancyent (?!marinere) 


只 有 一 个 字符 发 生 了 变化 : 正 前 瞻 的 等 号 (=) 变 为 反 前 瞻 的 感叹 号 (1). Al 8-3 所 
示 为 在 Opera 中 执行 反 前 瞻 查 找 。 


€ © oO | © web |gskinner.com/RegExr/ * (28 ~ Search with Google 了】 
m E T 





























"Now get thee hence, thou grey-beard Loon! 
"Or my Staff shall make thee skip." 


He holds him with his glittering eye-- 
The wedding quest stood still 

And listens like a three year's child; 
The Marinere hath his will. 


The wedding-guest sate on a stone, 
He cannot chuse but hear: 

And thus spake on that ancyent man, 
The bright-eyed Marinere. 


The Ship was cheer'd, the Harbour clear'd-- azii [z] 
Merrily did we drop = 
Below the Kirk, below the Hill, Matches any character, except for line breaks if 

Below the Light-house top. dotall is false. 





The Sun came up upon the left, 
Out of the Sea came he: 

And he shone bright, and on the right 
Went down into the Sea. 


RegExp: /(?i)ancyent (?!marinere)/a 
pattern: (?i)ancyent (?!marinere) 
flags: g 


1 capturing groups: 
group 1: (7i) 








图 8-3. Opera 中 使 用 RegExr RAE 








f£ Perl 语言 中 ， 可 以 这 样 来 使 用 反 前 瞻 : 





perl -ne 'print if /(?i)ancyent (?!marinere)/' rime.txt 





而 我 们 会 得 到 的 结果 是 : 


And thus spake on that ancyent man, 
And thus spake on that ancyent Man, 


在 ack 中 ， 可 以 用 





ack -i 'ancyent (?!marinere)' rime.txt 
得 到 相同 结果 。 


8.3 ERM 


正 后 顾 会 查看 左边 的 内 容 ， 这 与 正 前 瞻 方 向 相反 。 甚 语法 是 : 





(?i)(?«-ancyent) marinere 


正 后 顾 使 用 小 于 号 (<)， 提 醒 你 后 顾 是 哪个 方向 。 请 在 RegEx 中 试 一 下 ， 看 看 有 
什么 不 同 。 被 标 亮 的 是 marinere 而 不 是 ancyent。 为 什么 ”因为 正 后 顾 的 模式 是 匹 








配 的 条 件 ， 不 会 包含 在 匹配 结果 中 。 


在 Perl 语言 中 这 样 做 : 








perl -ne 'print if /(?i)(?«-ancyent) marinere/' rime.txt 


在 ack 中 这 样 做 : 





ack -i '(?<=ancyent) marinere' rime.txt 


8.4 反 后 顾 


最 后 一 种 环视 是 反 后 顾 。 你 能 猜 到 它 的 工作 原理 吗 ? 





有 反 后 顾 会 查看 某 个 模式 在 从 左 至 右 的 文本 流 的 后 面 没有 出 现 。 同 样 ， 它 有 一 个 小 于 


号 (<), 提醒 后 顾 的 是 哪个 方向 。 


请 在 RegExr 中 使 用 这 个 命令 并 查看 结果 : 





(?1) (?<!ancyent) marinere 


深 动 到 下 方 看 看 结果 是 什么 。 








然后 用 Perl 语言 尝试 : 
perl -ne 'print if /(?i)(?«!ancyent) marinere/' rime.txt 
以 下 就 是 你 会 看 到 的 结果 ,没有 一 个 地 方 含有 单词 ancyent: 


The Marinere hath his will. 
The bright-eyed Marinere. 





The bright-eyed Marinere. 

The Marineres gave it biscuit-worms, 

Came to the Marinere's hollo! 

Came to the Marinere's hollo! 

The Marineres all 'gan work the ropes, 
The Marineres all return'd to work 

The Marineres all 'gan pull the ropes, 
"When the Marinere's trance is abated." 
He loves to talk with Marineres 

The Marinere, whose eye is bright, 


最 后 在 ack 中 这 样 做 : 








ack -i '(?<!ancyent) marinere' rime.txt 
以 上 就 是 对 前 瞻 和 后 顾 的 简单 介绍 ， 这 是 现代 正则 表达 式 的 一 个 重要 特性 。 
在 下 一 章 中 ， 你 将 会 看 到 如 何 使 用 sed 和 Perl 为 文档 添加 HTMLS 标签 的 完整 例子 。 


8.5 本章 所 学 


。 如 何 使 用 正 前 瞻 和 反 前 瞻 
。 如 何 使 用 正 后 顾 和 反 后 顾 


8.6 ”相关 资源 


参见 Mastering Regular Expressions, Third Edition! 的 59~66 页 。 























TE 1: 本 书 中 文 版 《精通 正则 表达 式 (第 3 版 )》 已 经 由 电子 工业 出 版 社 出 版 。 一 一 编者 注 








BIS 


用 HTML 标 记 文 档 





本 章 会 逐步 指导 你 通过 正则 表达 式 为 普通 文本 添加 HTML5 标签 ， 同 时 总 结 本 书 前 
面 所 学 内 容 。 

如 果 是 我 ， 我 就 会 使 用 为 文本 添加 AsciiDoc! 标签 。 但 为 了 我 们 的 示例 ， 还 是 假 
Wt AsciiDoc 不 存在 吧 (BEAT! )。 我 们 要 用 手头 仅 有 的 几 个 工具 辛勤 地 工 
作 一 一 也 就 是 sed 和 Perl， 还 有 我 们 自己 的 智慧 。 


我 们 仍然 使 用 rime.txt 中 柯 勒 律 治 的 诗 文 作为 示例 文本 。 


由 于 我 们 对 rime.txt 的 结构 已 经 非常 了 解 了 ， 所 以 本 章 的 脚本 是 专门 针对 
43 4 。 它 写 的 。 如 果 用 这 些 脚本 匹配 其 他 文本 ， 最 终 的 结果 可 能 不 同 ， 但 这 些 肢 
U^ 本 是 你 掌控 复杂 文本 结构 的 良好 开端 。 


9.1 匹配 标签 


在 开始 对 诗 文 进 行 匹配 之 前 ， 先 讨论 一 下 如 何 匹 配 HTML 或 XML 标签 。 有 很 多 方 
式 匹 配 标 签 ， 无 论 是 起 始 标签 (如 -ntml>) 还 是 结束 标签 (如 </htmL>)， 但 我 找 
到 一 个 比较 可 靠 的 方法 。 不 论 是 否 有 属性 ， 它 都 会 匹配 起 始 标签 : 


























iE 1: AsciiDoc 是 一 种 轻 量 级 的 标记 语言 ,由 Stuart Rackham 最 初 发 布 于 2002 年 。AsciiDoc 可 用 于 编写 文档 、 
电子 书 、 幻 灯 片 、 网 页 、 博 客 等。 而 且 ， 该 格式 可 以 转换 成 HTML, PDF, ePub 等 格式 。 要 了 解 有 
关 AsciiDoc 的 更 多 信息 ， 请 参考 : http:Wasciidoc.org/。 要 了 解 标 记 语 言 的 更 多 信息 ， 请 参考 : http:/ 
编者 注 





























en.wikipedia.org/wiki/Comparison of documentation generators, 
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«[ a-zA-Z] [^»] *» 
以 下 是 该 表达 式 的 解析 。 


。 第 一 个 字符 是 左 尖 括号 (<). 

。 在 XML 中 元 素 可 以 以 下 划 线 字符 (_) 开头 ， 而 在 HTML 中 是 以 ASCII 范围 中 
的 大 写 或 小 写字 母 开 头 (参见 9.6 节 )。 

。 在 起 始 字符 之 后 ， 标 签名 称 可 以 是 零 或 多 个 除 右 尖 括号 (S) 之 外 的 任意 字符 。 

。 该 表达 式 以 右 尖 括号 结尾 。 


请 用 grep 尝试 下 面 的 命令 。 对 代码 库 中 的 示例 DITA 文件 lorem.dita 进行 匹配 : 


grep -Eo '«[ a-zA-Z][^»]*»' lorem.dita 


结果 是 : 











«topic id="lorem"> 
«title» 
«body» 
«p» 

«p» 
«ul» 
«li» 
«li» 
«li» 
«p» 

«p» 


要 同时 匹配 起 始 标签 和 结束 标签 ， 上 只 需 添 加 一 个 斜 线 并 在 之 后 加 一 个 问号 即 可 。 问 
号 使 斜 线 成 为 可 选 匹 配 部 分 : 
«/?[ a-zA-Z] [^»] *» 


我 只 在 这 里 讨论 起 始 标签 。 为 了 让 输入 更 美观 ， 我 常 使 用 管道 将 结果 传人 其 他 工具 








grep -Eo '«[ a-zA-Z][^»]*»' lorem.dita | sort | uniq | sed 's/*<//;s/ id= 
NroN1//;s/»$//" 


该 命令 列 出 了 排序 后 的 一 串 XML 标签 名 : 


第 10 章 也 就 是 最 后 一 章 会 更 详细 地 讲解 这 些 内 容 。 接 下 来 几 节 让 我 们 温 故 知 新 。 





9.2 用 sed 转 换 普 通 文本 


下 面 我 们 就 为 rime.txt 中 的 文本 添加 一 些 标签 ， 为 此 可 以 使 用 插入 命令 (i\)。 找 到 
rime.txt 文件 所 在 的 路 径 ， 在 shell 提示 符 中 输入 下 面 的 命令 : 





sed '1 i\ 

<!DOCTYPE html>\ 

«html lang="en">\ 

<head>\ 

<title>The Rime of the Ancyent Marinere (1798)</title>\ 
<meta charset-"utf-8"/»N 

</head>\ 

<body>\ 


q' rime.txt 
按 回 车 (或 Return 键 )， 输 出 如 下 所 示 ， 可 以 看 到 加 在 上 面 的 标签 : 


<!DOCTYPE html> 

<html lang="en"> 

<head> 

<title>The Rime of the Ancyent Marinere (1798)«/title» 
«meta charset="utf£-8"/> 

«/head» 

«body» 

THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 


你 刚刚 所 键入 的 命令 并 不 会 实际 改变 文件 一 一 它 只 会 在 屏幕 上 产生 和 输出。 后 面 我 会 
展示 如 何 修改 文件 内 容 。 


9.2.1 用 sed 进 行 替 换 

在 下 面 的 示例 中 ， 我 们 要 用 sed 找 出 文件 的 第 一 行 然 后 使 用 转 义 括号 \( 和 \) 构成 
的 捕获 分 组 捕获 一 整 行 。sed 需要 对 括号 进行 转 义 后 才 可 捕获 分 组 ， 除 非 你 使 用 -BE 
选项 ( 稍 后 讨论 )。 行 起 始 部 分 由 ^ 标 示 ， 行 结束 部 分 由 $s 标示。 后 向 引用 Nai 将 捕 
歼 的 文本 放 入 title 元素 中 ， 并 缩 进 一 个 空格 。 


运行 以 下 命令 : 





sed '1s/*\(.*\)$/ <title>\1<\/title>/;q' rime.txt 


输出 结果 如 下 所 示 : 





<title>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</title> 


现在 试 一 下 这 样 : 
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sed -E '1s/^(.*)$/«!DOCTYPE html>\ 
«html lang="en">\ 

<head>\ 

<title>\1l<\/title>\ 

<\/head>\ 

<body>\ 

<hi>\1<\/h1>5\ 

/;q' rime.txt 


以 下 是 详细 分 析 。 

。 -E 选 项 代表 sed 使 用 扩展 的 正则 表达 式 (也 就 是 ERE ,因此 不 必 对 括号 进行 转 义 ) 。 
。 使 用 禁 换 命令 时 ,将 第 1 行 放 入 捕获 分 组 (^(.*)s) 因此 可 以 通过 \1 重用 该 内 容 。 
。 创建 HTML 标签 以 及 用 \ 对 换行 符 进行 转 义 。 

e 在 title 和 hl 之 间 用 \1 插入 捕获 的 文本 。 

。 在 g 处 结束 程序 来 防止 在 屏幕 上 打印 剩 下 的 诗 文 。 


正确 的 结果 是 : 




















<!DOCTYPE html» 

<html lang="en"> 

<head> 

<title>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</title> 
«/head» 

«body» 

<h1>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</h1> 


9.2.2 用 sed 处 理 罗 马 数 字 
诗 文 分 为 七 个 部 分 ， 每 一 部 分 以 一 个 罗马 数字 开头 。 还 有 一 个 “ARGUMENT” 标 
题 。 下 面 一 行 命令 会 使 用 sed 捕获 标题 和 罗马 数字 ， 并 将 它们 用 <h2> 标签 包括 : 


sed -En 's/*(ARGUMENT\.|I{0,3}V?I{0,2}\.)$/<h2>\1<\/h2>/p' rime.txt 
以 下 就 是 你 会 看 到 的 结果 : 


<h2>ARGUMENT\.</h2> 
<h2>1I.</h2 
<h2>II.</h2 
<h2>III.</h2 
<h2>IV.</h2 
«h2»5V.«/h2 
«h2»5VI.«/h2 
«h2»5VII.«/h2 


接 下 来 是 对 以 上 sed 命令 的 描述 。 
。 -EE 选项 会 使 用 扩展 的 正则 表达 式 ， 而 -n 选项 会 覆盖 sed 默认 打印 每 一 行 的 行为 。 





。 替换 命令 (s) 会 捕获 标题 和 七 个 大 写 罗马 数字 ， 其 中 每 一 个 单独 一 行 紧 跟 一 个 
句号 ， 范围 为 1 到 VI. 

。 s 命令 随后 将 每 一 行 捕获 的 文本 嵌入 n2 元 素 中 。 

。 替换 部 分 末尾 的 p 标志 将 结果 打印 到 屏幕 上 。 








mo ent 
9.2.3 ”用 sed 处 理 特定 段落 
接 下 来 这 行 命令 会 找到 第 5 行 的 段落 : 
sed -En '5s/*([A-Z] .*)$/<p>\1<\/p>/p' rime.txt 
然后 将 该 段落 放 和 <p> 标签 中 : 
<p>How a Ship having passed the Line was driven by Storms to the cold Country 
towards the South Pole; and how from thence she made her course to 
the tropical Latitude of the Great Pacific Ocean; and of the strange 


things that befell; and in what manner the Ancyent Marinere came back 
to his own Country.</p> 


进展 有 点 儿 慢 ? 别 急 ， 我 们 很 快 就 会 把 这 些 技 巧 综合 起 来 。 


9.2.4 用 sed 处 理 多 行 诗 文 
接着 我 们 使 用 下 面 的 表达 式 来 标记 多 行 诗 文 : 
sed -E '9s/*[ ]*(.*)/ <p>\l<br\/>/;10,832s/^([ 1{5,7}.*)/\l<br\/>/; 
833s/*(.*)/\1<\/p>/' rime.txt 
这 些 sed 命令 是 根据 行 号 来 实现 操作 的 。 通 常情 况 下 这 种 方法 并 不 适用 ， 但 若 所 处 
理 的 内 容 已 知 则 这 种 方法 还 是 很 好 的 。 
。 第 9 行 ( 诗 文 的 第 一 行 ，s 命令 会 选 定 该 行 )， 在 文字 前 面 添加 几 个 空格 ， 再 插入 
一 个 <p> 标签 ， 然 后 在 行 尾 添加 一 个 <br> 标签 。 
。 第 10 行 到 第 832 íT, 每 个 开头 有 5 至 7 个 空格 的 行 之 后 都 添加 一 个 <br> 标签 。 
。 在 第 833 行 〈 诗 文 的 最 后 一 行 )，s 命令 添加 </p> 标签 而 不 是 <br> 标签 。 


这 里 是 标记 后 的 部 分 结果 : 








<p>It is an ancyent Marinere, <br/> 
And he stoppeth one of three:<br/> 
"By thy long grey beard and thy glittering eye<br/> 
"Now wherefore stoppest me?<br/> 


The Bridegroom's doors are open'd wide<br/> 
"And I am next of kin;<br/> 

"The Guests are met, the Feast is set,--<br/> 
"May'st hear the merry din.--<br/> 
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还 应 该 用 <br> 标签 奉 代 空 行 来 分 隔 诗 文 : 
sed -E 's/*$/<br\/>/' rime.txt 


下 面 是 操作 的 结果 : 





He prayeth best who loveth best, 
All things both great and small: 
For the dear God, who loveth us, 
He made and loveth all. 
<br/> 
The Marinere, whose eye is bright, 
Whose beard with age is hoar, 
Is gone; and now the wedding-guest 
Turn'd from the bridegroom's door. 
«br/» 
He went, like one that hath been stunn'd 
And is of sense forlorn: 
A sadder and a wiser man 
He rose the morrow morn. 


我 发 现在 合适 的 位 置 添加 标签 和 空格 实在 太 常 见 了 。 和 希望 你 也 能 做 好 。 


9.3 ”追加 标签 


现在 我 们 要 在 诗 文 的 结尾 添加 一 些 标签 。 使 用 追加 命令 (a\), $ 会 查找 文件 的 结尾 





(RS). MISERIS UR e/ncdy. Fl «nem RE. 


sed '$ a\ 
<\/body>\ 
<\/html1l>\ 
' rime.txt 


以 下 就 是 文件 结尾 部 分 : 


He went, like one that hath been stunn'd 
And is of sense forlorn: 
A sadder and a wiser man 
He rose the morrow morn. 
</body> 
</html> 


关于 sed 的 内 容 就 讲 到 这 里 了 


要 是 想 同时 完成 这 些 修改 呢 ?” 你 知道 怎么 做 了 ， 而 且 也 做 完了 。 其 实 只 要 将 这 
令 放 入 一 个 文件 中 ， 然 后 使 用 sed 的 -£ 选项 即 可 。 








使 用 sed 命 令 文 件 
以 下 是 html.sed 文件 的 内 容 ， 包 含 前 面 所 有 的 sed 命令 和 另外 两 个 命令 。 我 们 将 用 这 
个 命令 文件 通过 sed 把 rime.txt 转换 为 HTML。 文件 中 的 编号 便于 解释 这 个 sed 脚本 。 


#!/usr/bin/sed @ 


1s/*(.*)$/<!DOCTYPE html>\ @ 
<html lang="en">\ 
<head>\ 
<titles\1l<\/titles\ 
<\/head>\ 
<body>\ 
<hi>\1<\/h1>\ 
/ 


s/^ (ARGUMENT |I{0,3}v?T{0,2})\.$/<h25\1<\/h2>/ © 
5s/^( [A-Z] .*)$/<p>\1<\/p>/ @ 

9s/*[ ]*(.*)/ <p>\l<br\/>/ © 

10,832s/^([ ]1{5,7}.*)/\1<br\/>/ © 
833s/*(.*)/\1<\/p>/ @ 

13,$s/^$/«brN/»/ © 

sa o 

<\/body>\ 

<\/htm1>\ 


O ar HJ TAE shebang 行 ， 它 提示 shell 可 执行 文件 (sed) 的 位 置 。 


@ 替换 命令 (s) 会 用 随后 的 标签 奉 换 该 行文 本 。 反 和 斜 线 (QN) 表示 你 要 添加 的 文本 
会 延续 到 下 一 行 ， 因 此 要 插入 换行 符 。 用 \1 将 第 1 行 诗 文 的 题目 作为 title 和 
hi 的 内 容 插 入 。 


@ 用 n2 标签 包括 标题 和 罗马 数字 。 

O 第 5 行 中 用 pp 标签 包括 介绍 段落 。 

e 第 9 行 中 在 起 始 处 添加 p 起 始 标签 ， 在 行 尾 添加 br 标签 。 

O 第 9 行 至 第 832 行 ， 在 以 多 个 空格 起 始 的 行 的 结尾 处 添加 pr 标签 。 


9 在 诗 的 结尾 附加 p 结束 标签 。 





O 在 第 13 行 后 ， 每 一 个 空 行 都 用 br 标签 代替 。 
© 在 文件 结尾 (s) 附加 几 个 标签 。 
要 对 rime.txt 使 用 该 命令 文件 ， 则 输入 下 面 一 行 ， 然 后 回 车 (Enter & Return) : 


sed -E -f html.sed rime.txt 
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将 输出 重 定位 到 文件 : 
sed -E -f html.sed rime.txt > rime.html 


在 浏览 器 中 打开 rime.html 看 看 你 创建 的 内 容 ( 见 图 9-1)。 











THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
Ia THE RIME OF THE ANCYENT MA... 








» Go to a Website > 2€ | Google Q M 


THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS. 
ARGUMENT. 


How a Ship having passed the Line was driven by Storms to the cold Country towards the South Pole; and how from thence she made her course to the 
tropical Latitude of the Great Pacific Ocean; and of the strange things that befell; and in what manner the Ancyent Marinere came back to his own Country. 


It is an ancyent Marinere, 

And he stoppeth one of three: 

"By thy long grey beard and thy glittering eye 
"Now wherefore stoppest me? 


"The Bridegroom's doors are open'd wide 
"And I am next of kin; 

"The Guests are met, the Feast is set,-- 
"May'st hear the merry din.-- 


But still he holds the wedding-guest-- 
There was a Ship, quoth he-- 

"Nay, if thou'st got a laughsome tale, 
"Marinere! come with me." 

















图 9-1: 4 Firefox 中 打开 rime.html 


9.4 用 Perl 转 换 普 通 文本 


再 看 看 如 何 通 过 Perl 语言 为 文本 添加 HTML 标签 。 首 先 ， 和 sed 相似 ， 我 先 逐 一 给 
出 一 系列 命令 ， 然 后 再 在 一 个 文件 中 展示 同样 的 命令 。 


本 书 只 介绍 了 Perl 语言 的 初步 知识 及 用 法 。 本 书 不 是 Perl 语言 教程 或 手 


ENJ 











册 ， 但 我 希望 它 能 激发 你 对 Perl 语言 的 兴趣 ， 因 此 想 多 展示 几 种 可 能 的 用 
法 。 学 习 Perl 语言 最 好 的 起 点 是 Learning Perl 网 站 http://learn.perl.org/, 
上 面 还 有 Perl 的 安装 指导 方法 。 














如 果 当 前 行 人 $.) 就 是 第 1 行 ， 将 整 行 ($_) 赋值 给 变量 Stitle， 再 将 $title 
打印 出 来 。 


perl -ne 'if ($. == 1) {chomp ($title = $ ); print "<hl>" . $title . "</hl>" . 
"Nn";j;'rime.txt 











如 果 一 切 正常 ， 结 果 应 该 是 : 
<h1l>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</h1> 
以 下 是 对 这 个 Perd 命令 的 详解 。 


。 通过 S. 检查 是 否 在 第 IA. 

。 ERT (s_) 然后 将 这 个 字符 串 赋 值 给 $title 变量 。 当 用 chomp 函数 选 定 整 
行 时 ， 就 会 将 结尾 的 换行 符 从 字符 串 中 剔除 。 

。 在 hl 元素 中 打印 Stitle， 然 后 再 打印 换行 符 (Nn). 









RF Ped 语言 内 置 变量 (如 $.) 的 更 多 信息 ， 请 在 提示 符 中 输入 
erldoc -v $. (perldoc 通常 在 安装 Perl 时 就 已 经 安装 了 )。 如 果 
无 效 ， 请 参见 9.6 节 。 





























要 在 文件 起 始 处 添加 标记 (包括 hl 标签 )， 使 用 以 下 命令 : 


perl -ne 'if ($. == 1) {chomp(Stitle = $_)}; 
print "«!DOCTYPE html>\ 
<html xmlns=\"http: //www.w3.org/1999/xhtm1l\">\ 
<head>\ 
<title>Stitle</title>\ 
<meta charset=\"utf-8\"/>\ 


</head>\ 

<body>\ 

<hisStitle</his\n" if $. == 1; exit' rime.txt 
结果 如 下 : 


<!DOCTYPE html> 

«html xmlns-"http://www.w3.0rg/1999/xhtml"- 

«head» 
<title>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.</title> 
«meta charset-"utf-8"/» 

«/head» 

«body» 

<h1>THE RIME OF THE ANCYENT MARINERE, IN SEVEN PARTS.«/h1» 


打印 国 数 print 会 打印 随后 的 标签 以 及 每 一 行 ， 并 在 行 尾 加 \， 其 中 \ 会 将 换行 符 
写 入 到 输出 内 容 中 。$title 变量 的 内 容 会 在 title 和 hl 元 素 中 展开 显示 。 


9.4.1 用 Perl 处 理 罗 马 数 字 
要 给 标题 和 用 于 分 隔 内 容 的 罗马 数字 添加 标签 ， 可 使 用 : 


perl -ne 'print if s/^(ARGUMENTN.|I(0,3)V?1[0,2)N.) $/«h2»M1«V/h2»/;' rime.txt 
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输出 如 下 所 示 : 


<h2>ARGUMENT. </h2> 
<h2>1.</h2> 
<h2>II.</h2> 
<h2>III.</h2> 
<h2>IV.</h2> 
<h25V.</h2> 
«h2»5VI.«/h2» 
<h2>VII.</h2> 


替换 命令 (s) 会 捕获 ARGUMENT 标题 和 七 个 大 写 罗 马 数字 ， 其 中 每 一 个 都 在 音 
独 的 一 行 且 尾 随 一 个 句点 ， 罗 马 数 字 范围 为 1 至 VII， 然 后 将 捕获 的 文本 包括 在 n2 
标签 中 。 

















9.4.2 用 Perl 处 理 特定 段落 
请 使 用 以 下 代码 在 行 号 为 5 时 用 p 元 素 包 括 介绍 段落 : 


perl -ne 'if ($. == 5) (s/^([A-Z].*)$/«p»$1«V/p»/;print;]' rime.txt 
可 以 看 到 如 下 内 容 : 


<p> How a Ship having passed the Line was driven by Storms to the cold Country 
towards the South Pole; and how from thence she made her course to 
the tropical Latitude of the Great Pacific Ocean; and of the strange 
things that befell; and in what manner the Ancyent Marinere came back 
to his own Country.«/p» 


9.4.3 ”用 Perl 处 理 多 行 诗 文 
以 下 命令 会 将 一 个 p 起 始 标签 放 在 诗 文 第 一 行 的 起 始 处 ， 并 在 该 行 的 结尾 添加 一 个 
br 标签: 


perl -ne 'if ($. == 9) {s/*[ ]*(.*)/ <p>$1<br\/>/;print;}' rime.txt 
结果 如 下 : 
«p»It is an ancyent Marinere, <br/> 


接 下 来 的 Perl 命令 会 在 第 10 行 到 第 832 行 之 间 的 每 一 行 诗 文 的 结尾 处 添加 一 个 br 
标签 : 


perl -ne 'if (10..832) ( s/^([ ]{5,7}.*)/$1<br\/>/; print;]' rime.txt 


下 面 是 你 可 以 看 到 的 结果 的 一 部 分 : 





Farewell, farewell! but this I tell<br/> 
To thee, thou wedding-guest! <br/> 

He prayeth well who loveth well<br/> 
Both man and bird and beast.<br/> 


在 诗 文 最 后 一 行 结尾 处 添加 一 个 p 结束 标签 。 





perl -ne 'if ($. == 833) {s/^(.*)/$1<\/p>/; print;]' rime.txt 


He rose the morrow morn.«/p» 
将 每 一 行 结尾 处 的 空 行 替换 为 pr 标签 : 

perl -ne 'if (9..eof) {s/*$/<br\/>/; print;]' rime.txt 
ERA: 


<br/> 
He prayeth best who loveth best, 
All things both great and small: 
For the dear God, who loveth us, 
He made and loveth all. 
<br/> 
The Marinere, whose eye is bright, 
Whose beard with age is hoar, 
Is gone; and now the wedding-guest 
Turn'd from the bridegroom's door. 
<br/> 


最 后 ， 找 到 文件 结尾 时 ， 就 打印 出 几 个 结束 标签 : 
perl -ne 'if (eof) (print "</body>\n</html>\n"};' rime.txt 


将 所 有 这 些 代码 放 在 一 个 文件 中 运行 起 来 更 简单 ， 下 一 市 就 会 看 到 了 。 


9.4.4 ”使 用 Perl 命 令 文件 


下 面 列 出 的 是 html.pl 文件 ， 它 用 Perl 语言 将 rime.txt 转换 为 HTML。 该 示例 中 的 编 
号 将 指导 你 理解 这 个 Perl 脚本 的 内 容 。 





#!/usr/bin/perl -p @ 


if ($. == 1) [. 9 
chomp ($title = $ ); 
} 


print "<!DOCTYPE html». © 
«html xmlns=\"http://www.w3.org/1999/xhtml\">\ 


<head>\ 
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<title>stitle</title>\ 
<meta charset=\"utf£-8\"/>\ 
</head>\ 
<body>\ 
<his$title</his\n" if $. == 1; 
s/^ (ARGUMENT |1I{0,3}v?T{0,2})\.$/<h2>$1<\/h2>/; @ 
if ($. == 5) ( O 
s/^([A-Z2] .*)$/<p>$1<\/p>/; 


. = 9) {0 

]*(.*)/ <p>$1<br\/>/; 
if (10..832) ( Q 
s/^([ 1{5,7}.*)/S$l1<br\/>/; 
} 


if (9..eof) { © 


s/*$/<br\/>/; 

} 

if ($. == 833) { © 

s/*(.*)$/$1<\/p>\n <\/body>\n<\/html>\n/; 


} 
O 这 一 行 是 shebang 命令 ， 它 提示 shell 你 要 运行 的 程序 的 位 置 。 


e 如 有 果 当 前 行 (s.) 是 第 1 行 ， 则 将 整 行 (s ) 赋值 给 变量 $title， 同 时 使 用 
chomp 国 数 将 字符 串 最 后 一 个 字符 〈 换 行 符 ) EUER. 


e 在 文档 顶部 的 第 1 行 打印 文档 类 型 以 及 一 些 HTML 标签 ， 然 后 在 几 个 地 方 重 用 变 
量 stitle 的 值 。 








@ 用 n2 标签 包括 ARGUMENT 标题 和 罗马 数字 。 

6 H p 标签 包括 介绍 段落 。 

O 在 诗 文 开 头 添加 p 起 始 标签 ， 在 行 尾 添加 or 标签 。 
9 在 每 行 诗 文 结尾 处 添加 一 个 pr 标签 ， 最 后 一 行 除外 。 


© 在 第 9 行 后 ， 每 一 个 空 行 都 用 换行 标签 (br) RE. 








© 在 最 后 一 行 附加 p、body 以 及 html 结束 标签 。 
要 运行 该 文件 ， 只 需 输入 : 
perl html .pl rime.txt 


还 可 以 用 > 将 输出 内 容重 定向 到 文件 中 。 在 下 一 章 也 就 是 最 后 一 章 中 ， 我 们 来 总 结 
本 书 讲解 的 正则 表达 式 知识 。 








9.5 本章 所 学 


。 如 何在 命令 行 中 使 用 sed 
。 如 何 使 用 sed ZERIT RIN 〈 插 入) 、 替 换 以 及 在 尾部 附加 文本 (及 标签 ) 
。 如 何 使 用 Perl 做 同样 的 事情 


9.6 ”相关 资源 


e Stuart Rackham 的 AsciiDoc(http:Wwww.methods.co.nz/asciidoc/) 是 一 种 文本 格式 ， 
可 以 用 Python 预 处 理 程序 将 其 转换 为 HTML, PDF, ePUB, DocBook 以 及 技术 
文档 。 该 文本 文件 的 语法 与 Wiki 或 Markdown 相似 ， 而 且 比 手工 编写 HTML 或 
XML 标签 要 快 很 多 。 

。 下 划 线 只 适用 于 XML 的 标签 名 ， 而 不 适用 于 HIML。 另 外 ，XML 标签 名 可 用 的 
字符 范围 要 比 用 ASCII 字符 集 表 示 的 范围 大 很 多 。 有 关 XML 标签 名 可 用 字符 的 
信息 ， 请 参见 http://www.w3.org/TR/REC-xml/#sec-common-syn。 

。 如 果 peridoc 命令 不 起 作用 ， 你 还 有 其 他 选择 。 首 先 ， 可 以 直接 到 http:// 
perldoc.perl.org 在 线 阅 读 有 关 Perl 的 内 容 。( 例 如 ， 要 了 解 更 多 有 关 s. WAR, 
可 以 访问 http://perldoc.perl.org/perlvar.html#Variables-related-to-filehandles), 41 
果 你 运行 的 是 Mac， 则 可 以 试 试 perldoc5 .12。 如 果 你 是 从 ActiveState 安装 的 
Perl， 可 以 在 /usr/local/ActivePerl-5.XX/bin 中 找到 它 。 如 果 你 是 从 源 代 码 编译 和 
构建 的 程序 ， 则 perl 和 perlgoc 都 是 安装 在 /usr/local/bin 中 的 。 可 以 将 /usr/ 
local/bin 添加 到 你 的 路 径 变 量 中 以 方便 运行 perl 和 perldoc。 有 关 设 置 路 径 变 
量 的 信息 ， 请 参见 http://java.com/en/download/help/path.xml。 
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第 10 章 


DRAHE T 





“Unix DALAP TAF, A AMALAGA A PO a FL,” 
Doug Gwyn 


恭喜 你 坚持 到 正则 表达 式 初级 班 毕业 。 你 不 再 是 个 初学 者 了 ， 你 已 经 接触 了 最 常用 
的 正则 表达 式 语 法 。 作 为 程序 员 ， 正 则 表达 式 会 给 你 的 工作 提供 更 多 的 改善 机 会 。 


学 习 正 则 表达 式 为 我 节省 了 不 少 的 时 间 。 让 我 举 个 例子 吧 。 
我 在 工作 中 经 常 要 使 用 XSLT， 经 常 要 分 析 XML 文件 中 的 标签 。 


在 上 一 章 中 我 展示 过 一 部 分 ， 但 现在 这 里 有 个 更 长 的 单行 命令 ， 它 从 lorem.dita X 
件 中 提取 一 列 标签 名 并 转换 为 简单 的 XSLT 样式 表 : 











grep -Eo '«[ a-zA-Z][^»]*»' lorem.dita | sort | uniq | sed '1 i^ 
«xml:stylsheet version-"2.0" xmlns:xsl-"http://www.w3.0rg/1999/XSL/ 
Transform">\ 





;OS/^«/N 

<xsl:template match="/;s/ id=\".*\"//;s/>$/">\ 
<xsl:apply-templates\/>\ 

<\/xsl:template>/;$ a\ 

\ 

</xsl:stylesheet>\ 


TB X PIAS RR ARS A, TEL SO EF BE AR PG Ze, ARIS A JE 
方式 。 我 不 打算 解释 这 个 脚本 执行 的 操作 了 ， 因 为 我 确信 你 可 以 自己 弄 明白 。 
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该 脚本 的 输出 如 下 : 
«xml:stylsheet version-"2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> 


<xsl:template match="body"> 
<xsl:apply-templates/> 
</xsl:template> 


<xsl:template match-"li"- 
<xsl:apply-templates/> 
</xsl:template> 


<xsl:template match="p"> 
<xsl:apply-templates/> 
</xsl:template> 


<xsl:template match="title"> 
<xsl:apply-templates/> 
</xsl:template> 


<xsl:template match="topic"> 
<xsl:apply-templates/> 
</xsl:template> 


<xsl:template match="ul"> 

<xsl:apply-templates/> 

</xsl:template> 

</xsl:stylesheet> 
这 只 是 个 开头 。 当 然 ， 要 让 这 个 简单 的 样式 表 变 得 有 用 还 需要 做 很 多 编辑 工作 ， 但 
这 样 可 以 让 你 少 键入 很 多 东西 。 
我 承认 如 果 在 文件 中 用 以 下 sed 命令 则 会 更 简单 。 事 实 上 ， 我 就 这 样 做 了 。 你 可 以 
在 示例 代码 库 中 找到 xslt.sed 文件 。 下 面 是 该 文件 的 内 容 : 





#!/usr/bin/sed 


1 iN 
«xml:stylsheet version-"2.0" xmlns:xsl-"http://www.w3.0rg/1999/XSL/Transform"»V 


S/^«/N 

<xsl:template match="/;s/ id=\".*\"//;s/>$/">\ 
<xsl:apply-templates\/>\ 

<\/xsl:template>/;$ a\ 

\ 

</xsl:stylesheet>\ 


然后 这 样 运行 它 : 


grep -Eo '«[ a-zA-Z][^»]*»' lorem.dita | sort | uniq | sed -f xslt.sed 





10.1 想 上 中 级 班 


虽然 你 现在 已 经 较 好 地 和 擎 握 了 正则 表达 式 ， 但 仍然 有 很 多 东西 要 学 。 关 于 深入 学 习 
正则 表达 式 我 有 如 下 一 些 建议 。 





Jeffrey E. F. Friedl 的 Mastering Regular Expressions, Third Edition ' (http://shop. 
oreilly.com/product/9780596528126.do) 是 正则 表达 式 的 权威 指南 ， 很 多 程序 员 都 以 
此 为 参考 。 这 本 书 内 容 全 面 而 且 写 得 很 好 ， 如 果 你 要 用 正则 表达 式 做 重要 的 工作 ， 
那么 就 该 将 这 本 书 放 在 你 的 书架 上 或 者 在 你 的 电子 阅读 器 中 。 

Jan Goyvaerts 和 Steven Levithan 合 著 的 Regular Expressions Cookbook ^ (http:// 
shop.oreilly.com/product/0636920023630.do) 也 是 一 本 好 书 ， 万 其 适用 于 对 比 不 同 
的 实现 程序 ， 也 是 一 本 必 备 书 。 

Tony Stubblebine 的 Regular Expression Pocket Reference: Regular Expressions for Perl, 
Ruby, PHP, Python, C, Java and .NET (http://shop.oreilly.com/product/97805965 14273.do) 
是 一 本 128 页 的 参考 书 ， 虽 然 已 出 版 七 年 了 ， 但 仍然 很 受 欢迎 。 


Andrew Watt 的 Beginning Regular Expressions (Wrox, 2005) ° &5£1E2&, 4b, Bruce 
Barnett 的 在 线 sed 教程 非常 有 用 (请 参见 http://www.grymoire.com/Unix/Sed.html) 。 
他 展示 了 sed 很 多 不 易 理 解 的 特性 ， 本 书 未 涉及 这 些 特性 。 


102 工具、 实现 程序 以 及 程序 库 


本 书 已 经 展示 了 很 多 工具 、 实 现 程序 以 及 程序 库 。 在 此 我 们 再 回顾 一 下 ， 并 了 解 儿 
个 新 的 。 














10.2.1 Perl 

Perl 是 一 个 流行 的 通用 编程 语言 。 在 通过 正则 表达 式 处 理 文本 时 ,很 多 人 更 喜欢 使 
JH Perl 语言 ， 而 不 是 其 他 语言 。 你 可 能 已 经 安装 了 Perl， 但 我 们 还 是 得 提 一 下 ， 要 
获取 有 关 如 何在 系统 中 安装 Perl 的 信息 ， 请 访问 http://www.perl.org/get.html。 请 到 
http://perldoc.perl.org/perlre.html 阅读 有 关 Perl 的 正则 表达 式 的 内 容 。 当 然 ， 不 要 误 
解 ， 我 的 意思 并 非 是 让 大 家 都 来 学 习 Perl。 在 其 他 很 多 语言 中 同样 可 以 用 正则 表达 式 
出 色 地 完成 任务 ， 但 有 必要 在 你 的 工具 箱 中 保留 Perl。 要 深入 学 习 Perl， 你 可 以 买 一 
本 Randal Schwartz, brian d foy 和 Tom Phoenix 合 著 的 Learning Perl, Sixth Edition’, 






































注 1: 中 文 版 《精通 正则 表达 式 (第 3 版 )》 已 由 电子 工业 出 版 社 出 版 (2007)。 一 一 编者 注 
注 2:《 正 则 表达 式 经 典 实例 》 已 经 由 东南 大 学 出 版 社 出 版 (2010)。 编者 注 

注 3: 中 文 版 《正则 表达 式 入 门 经 典 》 已 由 清华 大 学 出 版 社 出 版 (2008) 。 一 一 编者 注 
注 4: 中 文 版 《Perl 语言 和 门 (第 6 版 )》 已 由 东南 大 学 出 版 社 出 版 (2012)。 一 一 编者 注 
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该 书 也 是 由 O'Reilly 出 版 的 。 


10.2.2 PCRE 


PCRE (Perl Compatible Regular ExpressionPerl, Perl 兼容 正则 表达 式 ) 是 一 个 用 C 
语言 编写 的 (8 位 和 16 位 ) 的 正则 表达 式 库 ， 参 见 http:/www.pcre.org。 该 程序 库 
主要 包含 一 些 函 数 ， 它 们 可 以 在 任何 C 语言 框架 以 及 任何 可 使 用 C. 程序 库 的 其 他 语 
言 中 被 调用 。 从 名 字 可 以 看 出 ， 它 兼容 Perl 5 正则 表达 式 ， 而 且 包 含 其 他 正则 表达 
式 实现 程序 的 一 些 特性 。Notepad++ 编辑 器 就 使 用 了 PCRE 库 。 

















peregrep 是 一 个 类 似 grep 的 8 位 工具 程序 ， 它 可 以 让 你 在 命令 行 中 使 用 PCRE 的 
特性 。 我 们 在 第 3 章 中 使 用 过 这 个 工具 。 关 于 下 载 信息 请 参见 http://www.pcre.org。 
可 通过 Macports (http://www.macports.org) 3k Hx Mac hk HJ peregrep, i8 fj áp 4 
sudo port install pcre 有 即 可 (必须 预先 安装 Xcode; JL https://developer.apple. 
com/technologies/tools/， 需 要 注册 )。 要 在 Windows 平台 (二进制 文件 ) 上 安装 


pcregrep， 请 参考 http://gnuwin32.sourceforge.net/packages/pcre.htm。 

















10.2.3 Ruby (Oniguruma) 


Oniguruma 是 Ruby 1.9 内 置 的 正则 表达 式 库 (参见 http://oniguruma.rubyforge.org/)。 
它 是 用 C 语言 编写 的 ， 专 门 支持 Ruby, "LAH Rubular 测试 Ruby 正则 表达 式 ， 这 
个 在 线 应 用 程序 支持 版 本 1.8.7 和 版 本 1.9.2 (JL http://www.rubular.com 和 图 10-1)。 
顺便 说 一 句 ，TextMate 就 使 用 了 Oniguruma J£, 





eoo Rubular: a Ruby regular expression editor and tester 





四 Rubular: a Ruby regular express... 


(OF) (9) (8) (C18) SE neo BI cooge Jma 








Your regular expression: 
2(? :\d{3})[.-1?(? :\d{4})$ 


Match result: 


707-827-7019] 














10.2.4 Python 


Python 是 一 种 支持 正则 表达 式 的 通用 编程 语言 (参见 http//www.python.org), H 
Guido van Rossum 于 1991 年 开发 。 可 以 在 以 下 链接 阅读 有 关 Python 3 正则 表达 式 
的 内 容 : http://docs.python.org/py3k/library/re.html?highlight=regular%20expressions。 














10.2.5 RE2 

RE2 是 个 非 回 调 的 C++ 正则 表达 式 库 (http://code.google.com/p/re2)。 虽 然 RE2 的 
速度 很 快 ， 但 是 它 不 做 回溯 操作 和 后 向 引用 。 它 是 以 Perl 的 CPAN 包 的 形式 来 使 
用 的 ， 后 向 引用 要 依赖 Perl 的 本 地 程序 库 来 完成 。 关 于 API 的 内 容 ， 请 参见 http:// 
code.google.com/p/re2/wiki/CplusplusAPI, http://swtch.com/-rsc/regexp/regexp3.html 
上 这 个 题 为 "Regular Expression Matching in the Wild” 的 文章 非常 有 趣 ， 大 家 可 以 
读 读 。 


10.3 ”匹配 北美 电话 号 码 


还 记得 第 1 章 中 匹配 北美 电话 号 码 的 例子 吗 ? 跟 那 时 相 比 ， 你 已 经 有 了 很 明显 的 


提高 。 





下 面 是 一 个 更 为 可 靠 的 匹配 电话 号 码 的 正则 表达 式 。 这 个 正则 表达 式 是 由 Goyvaerts 
和 Levithan & HJ Regular Expressions Cookbook, First Edition 一 书 第 235 页 的 例 
子 改编 而 来 。 


^v(? (2:N3(3)) 0? [-.12 (?:Nd(3]) [-.]2 (?:Nd(4]) $ 


请 用 手头 的 工具 试 一 下 这 个 表达 式 (图 10-2 显示 的 是 在 Reggy 中 输入 该 表达 式 的 情 
况 )。 现 在 你 应 该 能 轻而易举 地 分 析 清 楚 这 个 表达 式 了 。 真 为 你 骄傲 ! 不 过 ， 还 是 让 
我 们 一 块 再 分 析 一 次 吧 。 


。 “是 判定 一 行 或 者 主题 词 开 头 的 零 宽度 断言 。 

。\(? 是 一 个 字面 左 括号 ， 但 它 是 可 选 的 〈?)。 

。 (2:\d{3}) 是 一 个 匹配 连续 三 位 数字 的 非 捕获 分 组 。 
。 V? 是 可 选 的 右 括号 。 

。 [-.]? 人 允许 有 可 选 的 连 字 符 或 者 句点 (点 号 )。 

。 (?:\d{3)) 是 另 一 个 匹配 连续 三 位 数字 的 非 捕 获 分 组 。 
。 [-.]? 再 次 允许 有 可 选 的 连 字 符 或 者 句号 (点 号 )。 

。 (2:\d{4}) 是 匹配 连续 四 位 数字 的 非 捕获 分 组 。 

。$ 匹配 一 行 或 主题 词 的 结尾 。 
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这 个 表达 式 还 可 以 再 改进 ， 这 项 任务 就 留 给 你 了 ， 因 为 你 已 经 可 以 自己 做 了 。 








eoo Reggy 


A(?(?N93N?[.-]?(?N3(9)).-]? (?d(49)$ 











707-827-7019 











口 Match All. (Match Case (O Multiline 1 Match Found 














& 10-2: 4 Reggy 中 匹配 电话 号 码 的 正则 表达 式 


10.4 匹配 电子 邮件 地 址 
最 后 ， 再 给 你 一 个 匹配 电子 邮件 地 址 的 正则 表达 式 : 
^([Nw- .1!#8$Ss&Ix+-/=? ~{|}~]+)@((?:\w+\.)+) (?: La-zA-Z1 (2,4)) $ 


该 表达 式 是 由 Grant Skinner 用 RegExr 提供 的 表达 式 改编 而 来 。 我 想 让 你 尽力 尝试 
从 正则 表达 式 的 角度 解释 每 一 个 字符 的 意思 ， 然 后 看 看 有 什么 可 以 改进 的 地 方 。 我 
确定 你 可 以 做 到 。 


感谢 你 能 拿 出 时 间 学 习 本 书 ， 很 高 兴 和 你 共度 这 段 时 光 。 你 现在 应 该 已 经 很 好 地 千 
担 了 正则 表达 式 的 基本 概念 。 你 不 再 是 新 手 了 。 和 希望 你 已 经 可 以 与 正则 表达 式 互 动 
了 ， 并 且 在 学 习 过 程 中 着 实 和 掌握 了 有 用 的 东西 。 


10.5 本章 所 学 


。 如 何 从 文件 中 提取 XML 元 素 列表 并 将 其 转换 为 XSLT 样式 表 
。 从 哪里 可 以 找到 其 他 学 习 正 则 表达 式 的 资源 

。 值得 推荐 的 正则 表达 式 工具 、 实 现 程序 以 及 程序 库 

。 更 为 可 靠 的 匹配 北美 电话 号 码 的 模式 
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附录 


正则 表达 式 参 考 





本 附录 是 正则 表达 式 的 参考 资料 。 


QED 中 的 正则 表达 式 


QED (Quick Editor) 最 初 是 为 运行 在 Scientific Data Systems 公司 生产 的 SDS 940 
上 的 Berkeley Timesharing System 而 编写 的 。QED 是 Ken Thompson 对 MIT 的 
Compatible Time-Sharing System 上 运行 的 一 个 编辑 器 重 写 后 的 版 本 ， 它 是 计算 领域 
中 最 早 的 正则 表达 式 实现 程序 之 一 。 表 A-1 是 从 1970 年 贝尔 实验 室 备忘录 中 选取 
的 ， 它 列 出 了 QED 中 的 正则 表达 式 特性 。 直 到 40 多 年 后 的 今天 ， 这 种 语法 在 很 大 
程度 上 仍 在 使 用 ， 这 着 实 令 人 震惊 。 


表 A-1: QED 正 则 表达 式 














字面 值 (a) 正则 表达 式 ， 匹 配 该 字符 本 身 
(b) 正则 表达 式 ， 匹 配 一行 起 始 处 的 空 字符 
(c) 正则 表达 式 ， 匹 配 字 符 换行 符 之 前 的 空 字符 〈 通 常 在 一 行 的 结尾 处 ) 
(d) 正则 表达 式 ， 匹 配 除 换行 符 之 外 的 任意 字符 











[<string>] (©) 正则 表达 式 ， 仅 匹配 字符 串 中 的 任意 字符 
[^estring»s] (正则 表达 式 ， 匹 配 除 换行 符 和 字符 捉 中 的 字符 之 外 的 任意 字符 
* (g) 正则 表达 式 个 正则 表达 式 后 跟 * 构成 )， 其 匹配 的 是 该 正则 表达 式 匹 配 的 文本 
接连 出 现任 意 次 (WERK) 所 形成 的 内 容 
W 正则 表达 式 〈 由 相 邻 的 两 个 正则 表达 式 构 成 )， 匹 配 的 是 两 个 正则 表达 式 所 匹配 的 文 
本 上 毗邻 出 现 的 情况 























~ 

















~ 
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(28) 
特 性 描 Ok 
| (i) 正则 表达 式 (由 两 个 被 | 分 隔 的 正则 表达 式 构成 )， 匹 配 的 是 两 个 正则 表达 式 中 的 任何 
一 个 所 匹配 的 文本 
() G) 正则 表达 式 (由 正则 表达 式 加 括号 组 成 )， 它 与 原 表 达 式 匹配 的 文本 相同 。 括 号 是 
用 来 改变 (g) h 以 及 人 中 隐 含 的 求 值 顺序 : a (pb|c)d 会 匹配 apd 或 acd， 而 
ab | cà 匹配 的 则 是 ab 或 ca 
{} (k) 如 果 是 一 个 正则 表达 式 ， 则 { <regexp>}x 也 是 一 个 正则 表达 式 ， 其 中 x 是 任意 字符 。 
该 正则 表达 式 与 匹配 相同 的 内 容 ， 它 在 替换 命令 中 会 有 某 些 副 作用 。( 替 换 命 令 的 构成 
形式 是 (.,.) S/<regexp>/<string>/ (参见 实验 室 备 忘 录 的 第 13 页 ) ， 与 如 今 它 
在 sed 和 Perl 等 程序 中 的 用 法 相似 。) 
\E (D 如果 是 由 EE 命令 命名 的 正则 表达 式 名 ， 则 \E 是 一 个 正则 表达 idis 它 与 EE 命令 中 指定 
Leanne 匹配 的 内 容 相同 。 更 多 讨论 见 后 面 的 了 命令。” OE 命令 允 许 对 则 表达 
命名 并 根据 名 字 来 重复 使 用 该 表达 式 。) 
(m) pens 正则 表达 式 与 前 一 个 正则 表达 式 等 价 。 初 始 情况 下 未 定义 空 正 则 表达 式 ， 
在 错误 的 正则 表达 式 之 后 以 及 使 用 EE 命令 后 它 也 是 未 定义 的 
(n) 其 他 情形 都 不 是 正则 表达 式 
(0) 正则 表达 式 不 匹配 多 行文 本 










































































= 





元 字符 
正则 HAM ed 14 个 元 字符 分 别 有 相 应 的 特殊 含义 ， 如 表 A-2 所 示 。 如 果 你 


想 将 这 些 字符 作为 字面 值 使 用 ， 必 须 在 该 字符 前 加 一 个 反 斜 线 将 其 转 义 。 例 如 ， 你 
23a 0 205 ae eg 


表 A-2: 正则 表达 式 中 的 元 字符 












































元 字符 名 K 代码 点 € FA 
句点 U+002E 匹配 任意 字符 
\ KREG U+005C 对 字符 转 义 
| 坚 线 符 U+007C 选择 操作 (或 ) 
^ 脱 字符 U+005E 行 起 始 销 位 符 
$ 美元 符 U+0024 行 结束 锚 位 符 
? 问号 U+003F 匹配 零 次 或 一 次 的 量词 
* 星 号 U+002A PLACA RMS RAY ae a] 
4 加 号 U+002B 匹配 一 次 或 多 次 的 量词 
[ 左 方 括号 U+005B 字符 组 起 始 
] 右 方 括号 U+005D 字符 组 结束 
{ 左 花 括 号 U+007B 量词 或 代码 块 起 始 
} 右 花 括号 U+007D 量词 或 代码 块 结束 
( 左 括号 U+0028 分 组 起 始 
) 右 括号 U+0029 分 组 结束 
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ra 大 人 人 I 一 上 

字符 简写 式 

d A-3 列 出 了 正则 表达 式 中 使 用 的 字符 简写 式 。 
表 A-3: 字符 简写 式 

































































字符 简写 式 描 述 字符 简写 式 描 述 
\a 报警 符 Noxxx 字符 的 八进制 值 
\b 单词 边界 \s 空白 符 
[\b] 退 格 字符 AS dEZEEATT 
\B 非 单词 边界 \t 水 平 制 表 符 
\cx 控制 字符 \v 垂直 制 表 符 
\d 数字 字符 Nw 单词 字符 
\D 非 数 字 字 符 NW 非 单词 字符 
\dxxx 字符 的 十 进 制 值 NO 空 字 符 
\f 换 页 符 Nx xx 字符 的 十 六 进 制 值 
Nr 回 车 符 Nuxxxx 字符 的 Unicode 值 
An 换行 符 
空白 符 
X A-4 列 出 了 各 种 空白 符 的 简写 式 。 
表 A-4: 空白 符 
字符 简写 式 描 述 字符 简写 式 描 述 
\f 换 页 符 可 车 符 
\h 水 平 空 白 符 \t 水 平 制 表 符 
































Unicode 空 白字 符 
K A-5 列 出 的 是 Unicode 中 的 各 种 空白 字符 。 


表 A-5: Unicode 中 的 各 种 空白 字符 

















简写 或 别名 名 B 代码 点 正则 表达 式 
H 水 平 制 表 符 U+0009 \u0009 或 \t 
LF 换行 符 U+000A \u000A 或 \n 
VT 垂直 制 表 符 U+000B \u000B 或 \v 
FF 换 页 符 U+000C \u000C BK \ f 














( 续 ) 






































简写 或 别名 名 称 代码 点 正则 表达 式 
CR 回 车 符 U+000D \u000d BY \r 
SP 空格 符 U+0020 \u0020 3X, Ns 
NEL 下 一 行 U+0085 \u0085 
NBSP 非 间断 空格 U+00A0 \u00A0 
= 次 甘 空格 U+1680 \u1680 
MVS 蒙古 文 母 音 分 隔 符 U+180E \ul80E 
BOM 字 节 顺序 标记 U+FEFF \ufeff 
NOSP 半身 空 铅 U+2000 \u2000 
MOSP, Mutton Quad 全 身 空 铅 U+2001 \u2001 
ENSP, Nut 单 倍 间距 U+2002 \u2002 
EMSP, Mutton 双 倍 间距 U+2003 \u2003 
3MSP, Thick space 三 分 之 一 全 身 间距 U+2004 \u2004 
4MSP, Mid space 四 分 之 一 全 身 间距 U+2005 \u2005 
6/MSP 六 分 之 一 全 身 间距 U+2006 \u2006 
FSP 数字 间隔 U+2007 \u2007 
PSP 标点 间隔 U+2008 \u2008 
THSP FS ZS HS U+2009 \u2009 
HSP 细 空 格 U+200A \u200A 
ZWSP 零 宽 度 空格 U+200B \u200B 
LSEP 行列 分 隔 符 U+2028 \u2028 
PSEP 段落 分 隔 符 U+2029 \u2029 
NNBSP 罕 式 不 换行 空格 U+202F \u202F 
MMSP 中 等 数学 间隔 U+205F \u205f 
IDSP 意 字 符 间隔 U+3000 \u3000 
* 也 会 匹配 其 他 空白 符 。 
控制 字符 
K A-6 所 示 的 是 在 正则 表达 式 中 匹配 控制 字符 的 一 种 方式 。 
表 A-6: 匹配 控制 字符 
控制 字符 Unicode 值 简 写 名 称 
co" U+0000 NUL 空 字 符 
\cA U+0001 SOH 标题 起 始 
\cB U+0002 STX 文本 起 始 
Ncc U--0003 ETX 文本 结束 
\cD U+0004 EOT 传输 结束 
\cE U+0005 ENQ 询问 
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控制 字符 Unicode 值 简 名 称 
\cF U+0006 ACK 确认 
\cG U+0007 BEL 报警 符 
\cH U+0008 BS 退 格 符 
\cI U+0009 HT 水 平 制 表 符 
\ey U+000A LF 换行 符 
\cK U+000B VT 垂直 制 表 符 
\cL U+000C FF 换 页 
NcM U+000D CR 可 车 符 
\cN U+000E SO 移出 
\co U+000F SI BA 
\cP U+0010 DLE 数据 链 转 义 
\cQ U+0011 DCI 设备 控制 符 一 
\cR U+0012 DC2 设备 控制 符 二 
\cs U+0013 DC3 设备 控制 符 三 
\cT U+0014 DC4 设备 控制 符 四 
\cu U+0015 NAK 否定 性 确认 
\cv U+0016 SYN 同步 空闲 
\cw U+0017 ETB 传输 块 结尾 
Nex U+0018 CAN 取消 
\cY U+0019 EM 介质 结尾 
\cz U+001A SUB 替换 
Vel U+001B ESC fX 
\c\ U+001C FS 信息 分 隔 符 四 
Nc] U+001D GS 信息 分 隔 符 三 
Ne^ U+001E RS 信息 分 隔 符 二 
\c U+001F US 信息 分 隔 符 一 





# 可 以 使 用 大 写 或 者 小 写 形 式 。 例 如 ，\cA 与 Na 是 等 价 的 ; 但 是 Java 实现 版 本 要 求 大 写 。 


字符 属性 
d A-7 列 出 了 以 \p{ B 
表 A-7: 字符 属性 ” 














性 } 或 \P{ 属性 } 形式 使 用 的 字符 属性 名 称 。 
































属 性 描 述 属 性 t Ok 属 性 描 R 
fe 其 他 字符 Co 专用 字符 Lm 修饰 字母 
Cc 控制 字符 Cs 替代 字符 Lo 其 他 字母 
CE 格式 字符 L 字母 Lt 标题 字母 
cn 未 分 配 字 符 Ll 小 写字 母 Lu 大 写字 母 





























属 性 描 述 E TU jo X zi 性 描 述 
L& Ll, Lu 或 者 Lt P 标点 符号 Sc 货币 符号 
M 标记 符号 Pc 连接 标点 SK 修饰 符号 
Mc 空格 标记 符 Pd 破 折 号 sm 数学 符号 
Me 环绕 标记 符 pe 结束 标点 符 So 其 他 符号 
Mn 非 空格 标记 符 Pf 最 终 标 点 符 z 分 隔 符 
N 数字 Pi 起 始 标点 符 Zl 行 分 隔 符 
Nd 十 进 制 数字 Po 其 他 标点 符 Zp 段落 分 隔 符 
N1 字母 数字 ps 开始 标点 符 Zs 空格 分 隔 符 
No 其 他 数字 S 符号 

















* 见 http:/Awww.pcre.org/pere.txt 中 的 pcresyntax(3)。 


各 种 字符 属性 的 脚本 名 称 


K A-8 列 出 了 以 \p{ 属性 } 或 \P{ 属性 } 形式 使 用 的 语言 脚本 名 称 。 





表 A-8: 脚本 名 称 ” 
Arabic (Arab) 
Armenian (Armn) 
Avestan (Avst) 
Balinese (Bali) 
Bamum (Bamu) 
Bengali (Beng) 
Bopomofo (Bopo) 
Braille (Brai) 
Buginese (Bugi) 
Buhid (Buhd) 
Canadian Aboriginal (Cans) 
Carian (Cari) 
Cham (None) 
Cherokee (Cher) 
Common (Zyyy) 
Coptic (Copt/Qaac) 
Cuneiform (Xsux) 
Cypriot (Cprt) 
Cyrillic (Cyrl) 
Deseret (Dsrt) 


Devanagari (Deva) 


Egyptian Hieroglyphs (Egyp) 


Ethiopic (Ethi) 
Georgian (Geor) 


Glagolitic (Glag) 

Gothic (Goth) 

Greek (Grek) 

Gujarati (Gujr) 

Gurmukhi (Guru) 

Han (Hani) 

Hangul (Hang) 

Hanunoo (Hano) 

Hebrew (Hebr) 

Hiragana (Hira) 

Hrkt: Katakana or Hiragana) 
Imperial Aramaic (Armi) 
Inherited (Zinh/Qaai) 
Inscriptional Pahlavi (Phli) 
Inscriptional Parthian (Prti) 
Javanese (Java) 

Kaithi (Kthi) 

Kannada (Knda) 

Katakana (Kana) 

Kayah Li (Kali) 
Kharoshthi (Khar) 

Khmer (Khmr) 

Lao (Laoo) 

Latin (Latn) 


Lepcha (Lepc) 
Limbu (Limb) 
Linear B (Linb) 
Lisu (Lisu) 

Lycian (Lyci) 
Lydian (Lydi) 
Malayalam (Mlym) 
Meetei Mayek (Mtei) 
Mongolian (Mong) 
Myanmar (Mymr) 
New Tai Lue (Talu) 
Nko (Nkoo) 
Ogham (Ogam) 

Ol Chiki (Olck) 
Old Italic (Ital) 

Old Persian (Xpeo) 
Old South Arabian (Sarb) 
Old Turkic (Orkh) 
Oriya (Orya) 
Osmanya (Osma) 
Phags Pa (Phag) 
Phoenician (Phnx) 
Rejang (Rjng) 
Runic (Runr) 


Samaritan (Samr) 


Saurashtra (Saur) 
Shavian (Shaw) 
Sinhala (Sinh) 
Sundanese (Sund) 
Syloti Nagri (Sylo) 
Syriac (Syrc) 
Tagalog (Tglg) 
Tagbanwa (Tagb) 
Tai Le (Tale) 

Tai Tham (Lana) 
Tai Viet (Tavt) 
Tamil (Taml) 
Telugu (Telu) 
Thaana (Thaa) 
Thai (None) 
Tibetan (Tibt) 
Tifinagh (Tfng) 
Ugaritic (Ugar) 
Unknown (Zzzz) 
Vai (Vaii) 

Yi (Yiii) 


* 参见 http://www.pere.org/pcre.txt 3 http://ruby.runpaint.org/regexps#properties 中 的 pcresyntax(3)。 
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POSIX 字 符 组 
表 A-9 列 出 了 各 种 POSIX 字符 组 。 


表 A-9: POSIX 字 符 组 



































字 符 组 描 xh 
:alnum: 字母 数字 字符 (字母 和 数字 ) 
:alpha: 字母 字符 (字母 ) 
:ascii: ASCI 字符 (总 共 128 个 ) 
:blank: 空白 字符 
:ctrl:] 控制 字符 
:digit: 数字 
:graph: 图 形 字 符 
:lower: 小 写字 母 
:print: 可 打印 字符 
:punct: 标点 符号 
:Space: 空格 字符 
:upper: 大 写字 母 
:word:] 单词 字符 
:xdigit:]] 十 六 进 制 数字 














选项 与 修饰 符 


K A-10 和 表 A-11 分 别 列 出 了 正则 表达 式 中 的 选项 和 修饰 符 。 
表 A-10: 正则 表达 式 中 的 选项 























选 项 dE X 支持 平台 

(?d) Unix 中 的 行 Java 

(?i) 不 区 分 大 小 写 PCRE、Perl、Java 
(?J) 允许 重复 的 名 字 PCRE 

(?m) 多 行 PCRE、Perl、Java 
(?s) 单行 (dotall) PCRE、Perl、Java 
(?u) Unicode Java 

(?U) 默认 最 短 匹 配 PCRE 

(?x) 忽略 空格 和 注释 PCRE, Perl, Java 
(?-7) 撤销 设置 或 关闭 选项 PCRE 


* 参见 http://www.pcre.org/pcre.txt 中 的 “Named Subpatterns” (命名 子 模式 ) 。 





表 A-11: Perl 语言 中 的 修饰 符 (标记 符 )“ 


修 ti 
a 
e 
d 
g 
i 
1 
m 
P 
s 
u 
x 


二 进 制 
00000000 
00000001 
00000010 
00000011 
00000100 
00000101 
00000110 
00000111 
00001000 
00001001 
00001010 
00001011 
00001100 
00001101 
00001110 
00001111 
00010000 
00010001 
00010010 


符 


八进制 


Md O tU A Ut Nl — C 


10 


十 进 制 


O mo OQ t d» WN — CO 











使 用 默认 
全 局 匹配 
匹配 时 不 

















使 用 当前 
多 行 字 符 





保留 匹配 的 字符 中 





串 


区 分 大 小 写 
位 置 的 规则 


Hi 


将 字符 串 看 做 一 行内 容 
匹配 时 使 用 Unicode 规则 
忽略 空格 及 注释 
* 参见 http://perldoc.perl.org/perlre.html#Modifiers。 


正则 表达 式 与 ASCII 码 表 
表 A-12 是 正则 表达 式 与 ASCII 码 表 对 照 。 


表 A-12: ASCII 码 表 











十 六 进 制 
0 


O o —- OQ tn fF t Ne 


o occ 
QO W > 





字符 
NUL 
SOH 
STX 
ETX 
EOT 
ENQ 
ACK 
BEL 
BS 
HT 
LF 
VT 
FF 
CR 
SO 
SI 
DLE 
DCI 
DC2 


键盘 
^q 
^A 
^B 
^C 
^D 
^E 
^F 
^G 
^H 
^ 
^j 
^K 
AL 
^M 
^N 
^O 
^P 
^Q 
^R 


VEO Nd. Ns, Nw 以 及 处 于 ASCII GR 
匹配 失败 后 则 停留 在 当前 位 置 
的 本 地 平台 的 规则 


正则 表达 式 


\c@ 
\cA 
\cB 
\cc 
\eD 
\cE 
\cF 
Na, 


[No], \cH 


XE S 
Mn, 
NS 
NES 
NE, 
\ cN 
NcO 
\ cP 
\cQ 
\cR 





\cG 


\cI 
\eg 
\cK 
\cL 
\cM 


目 内 的 POSIX 字符 


空 字符 
标题 开始 
文本 开始 
文本 结束 
传输 结束 
询问 

确认 

警报 字符 
退 格 符 
水 平 制 表 符 
换行 符 
垂直 制 表 符 
换 页 符 

可 车 符 
移出 
移入 

数据 链 转 义 

设备 控制 1 (XON) 
eee te i 









































= 
N 
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二 进 制 八进制 ”十进制 “十 六 进 制 字符 ” 键盘 “正则 表达 式 名 
00010011 23 19 13 DC3 ^S \cs 设备 控制 3 (XOFF) 
00010100 24 20 14 DC4 ^T \cT 设备 控制 4 
00010101 25 21 15 NAK ^U \cu 否定 性 确认 
00010110 26 22 16 SYN ^V \cv 同步 空闲 
00010111 27 23 17 ETB ^W \cw 传输 块 结尾 
00011000 30 24 18 CAN ^X \cx 取消 
00011001 31 25 19 EM ^Y \cY 介质 结尾 
00011010 32 26 1A SUB ^Z \cz 替换 
00011011 33 27 1B ESC ^[ Ve, Vel £X 
00011100 34 28 1C FS ^| \c| 文件 分 隔 符 
00011101 35 29 1D GS ^j \c] 分 组 分 隔 符 
00011110 36 30 1E RS ^^ Nc^ 记录 分 隔 符 
00011111 37 31 IF US fiic IC 单元 分 隔 符 
00100000 40 32 20 SP SP \s, [] 空格 
00100001 41 33 21 ! ! ! 感叹 号 
00100010 42 34 22 1 " " 引号 
00100011 43 35 23 # # # 井 号 
00100100 44 36 24 $ $ NS 美元 符 
00100101 45 37 25 % % $ 百 分 号 
00100110 46 38 26 & & & 和 号 
00100111 47 39 27 j i ' 散 号 
00101000 50 40 28 ( ( (,\( 左 插 号 
00101001 51 41 29 ) ) ) \) 右 括号 
00101010 52 42 2A * * * BS 
00101011 53 43 2B + + + 加 号 
00101100 54 44 2C ; ; ; is 
00101101 55 45 2D - 3 = 连 字 符 
00101110 56 46 2E Nass 句号 
00101111 57 47 2F / / / RHR 
00110000 60 48 30 0 0 \d, [0 数字 0 
00110001 61 49 31 1 1 Md. [1 数字 1 
00110010 62 50 32 2 2 \d, [2 数字 2 
00110011 63 51 33 3 3 \d, [3 数字 3 
00110100 64 52 34 4 4 Md, [4 数字 4 
00110101 65 53 35 5 5 \d, [5 数字 5 
00110110 66 54 36 6 6 \d, [6 数字 6 
00110111 67 55 37 7 7 \d, [7 数字 7 
00111000 70 56 38 8 8 \d, [8 数字 8 
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二 进 制 八进制 “十进制 ”十 六 进 制 字符 ”键盘 ”正则 表达 式 名 FR 
00111001 71 57 39 9 9 \d, [9] 数字 9 
00111010 72 58 3A : ; : 冒号 
00111011 73 59 3B ; ; ; 分 号 
00111100 74 60 3C < < z 小 于 号 
00111101 75 61 3D - - a 等 于 号 
00111110 76 62 3E > > 大 于 号 
00111111 77 63 3F ? ? ? 问号 
01000000 100 64 40 @ (à) @ at 
01000001 101 65 41 A A Ws [A 拉丁 大 写字 母 A 
01000010 102 66 42 B B \w, [B 拉丁 大 写字 母 B 
01000011 103 67 43 C C \w, [C 拉丁 大 写字 母 C 
01000100 104 68 44 D D \w, [D 拉丁 大 写字 母 D 
01000101 105 69 45 E E \w, [E 拉丁 大 写字 母 E 
01000110 106 70 46 F F \w, [F 拉丁 大 写字 母 F 
01000111 107 71 47 G G \w, [G 拉丁 大 写字 母 G 
01001000 110 72 48 H H \w, [H 拉丁 大 写字 母 H 
01001001 111 73 49 I I Ws [I 拉丁 大 写字 母 I 
01001010 112 74 4A J J \w, [J 拉丁 大 写字 母 J 
01001011 113 75 4B K K \w, [K 拉丁 大 写字 母 K 
01001100 114 76 4C L L Ws [L 拉丁 大 写字 母 L 
01001101 115 77 4D M M Ws [M 拉丁 大 写字 母 M 
01001110 116 78 4E N N \w, [N 拉丁 大 写字 母 N 
01001111 117 79 4F O O \w, [0 拉丁 大 写字 母 O 
01010000 120 80 50 P P Ws [P 拉丁 大 写字 母 P 
01010001 121 81 51 Q Q we [Q 拉丁 大 写字 母 Q 
01010010 122 82 52 R R Ws [R 拉丁 大 写字 母 R 
01010011 123 83 53 S S \w, [S 拉丁 大 写字 母 S 
01010100 124 84 54 T T Ws [T hTKS FT 
01010101 125 85 55 U U \w, [U 拉丁 大 写字 母 U 
01010110 126 86 56 V V \w [V 拉丁 大 写字 母 V 
01010111 127 87 57 W W \w, [W 拉丁 大 写字 母 W 
01011000 130 88 58 X X Ws [X 拉丁 大 写字 母 和 
01011001 131 89 59 Y Y \w, [Y 拉丁 大 写字 母 Y 
01011010 132 90 5A Z Z \w, [Z 拉丁 大 写字 母 Z 
01011011 133 91 5B [ [ M 左 方 括号 
01011100 134 92 5C \ \ \ KARE 
01011101 135 93 5D ] ] \] EDHE 
01011110 136 94 5E ^ ^ ^. [^] 抑 扬 符号 
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二 进 制 八进制 ”十进制 ”十 六 进 制 字符 键盘 EMRA 名 i 
01011111 137 95 5F E] 下 划 线 
00100000 140 96 60 ` : V 重音 符 
01100001 141 97 61 a a Ww [a 拉丁 小 写字 母 A 
01100010 142 98 62 b b Ws [b 拉丁 小 写字 母 B 
01100011 143 99 63 c c Ww» [c 拉丁 小 写字 母 C 
01100100 144 100 64 d d Ww» [d 拉丁 小 写字 母 D 
01100101 145 101 65 e e Ww [e 拉丁 小 写字 母 E 
01100110 146 102 66 f f Ws [f 拉丁 小 写字 母 F 
01100111 147 103 67 g g Ww. [g 拉丁 小 写字 母 G 
01101000 150 104 68 h h \w, [h HETEN A 
01101001 151 105 69 i i Ws [i 拉丁 小 写字 母 I 
01101010 152 106 6A j j \w, [j 拉丁 小 写字 母 J 
01101011 153 107 6B k k Ws [k 拉丁 小 写字 母 K 
01101100 154 108 6C 1 1 \w, [1 拉丁 小 写字 母 L 
01101101 155 109 6D m m Ws [m 拉丁 小 写字 母 M 
01101110 156 110 6E n n \w, [n 拉丁 小 写字 母 N 
01101111 157 111 6F o o \w, [o 拉丁 小 写字 母 0 
01110000 160 112 70 p p \w, [p 拉丁 小 写字 母 P 
01110001 161 113 71 q q \w, [q 拉丁 小 写字 母 Q 
01110010 162 114 72 r r \w, [r 拉丁 小 写字 母 RR 
01110011 163 115 73 s s \w, [s 拉丁 小 写字 母 S 
01110100 164 116 74 t t Ws [t 拉丁 小 写字 母 T 
01110101 165 117 75 u u \w, [u 拉丁 小 写字 母 U 
01110110 166 118 76 v v \w [v 拉丁 小 写字 母 V 
01110111 167 119 Tl w w Wes [w 拉丁 小 写字 有 母 W 
01111000 170 120 78 x x \w [x 拉丁 小 写字 母 义 
01111001 171 121 79 y y Wwe [y 拉丁 小 写字 母 Y 
01111010 172 122 7A z z Wwe [z 拉丁 小 写字 母 Z 
01111011 173 123 7B { { { 左 花 括号 
01111100 174 124 7C | | | 坚 线 

01111101 175 125 7D } } } 右 花 括号 
01111110 176 126 7E - - Nx 波浪 符 
01111111 177 127 7F DEL ^? \c? 删除 


相关 资源 
请 读者 参考 Ken Thompson 和 Dennis Ritchie 的 QED 备 忘 手册 http://cm.bell-labs.com/ 
cm/cs/who/dmr/qedman.pdf, 








术语 表 


ASCII 

美国 信息 交换 标准 代码 (American Standard Code 
for Information Interchange)。 它 是 1960 年 制定 的 
一 种 针对 英文 (拉丁) 字符 的 编码 方案 ,含有 128 
个 字符 。 另 见 Unicode, 








BRE 
见 基 本 正则 表达 式 。 
ed 


实现 正则 表达 式 的 一 种 Unix 行 编辑 器 ， 由 Ken 
Thompson 于 1971 年 开发 。 它 是 sed 和 vi 的 前 身 。 











ERE 
见 扩展 正则 表达 式 。 
grep 


使 用 正则 表达 式 来 查找 字符 串 的 Unix 命令 行 工 
H. grep 是 由 Ken Thompson 于 1973 年 开发 ， 据 
说 是 由 ed 编辑 器 命令 g/re/p (global/regular 
expression/print) 发 展 而 来 。grep 后 来 被 egrep 
(或 grep -E) 取代 ， 后 者 拥有 更 多 元 字符 ， 如 |、 
+、?、( 和) ， 但 并 没有 被 淘汰 。grep 使 用 基本 正 
则 表达 式 ，grep -E (或 egrep) 使 用 扩展 正则 表达 
式 。fgrep (grep -F) 使 用 文字 字符 串 来 查找 文件 ， 
而 像 $、* 和 | 这 样 的 元 字符 没有 特殊 含义 。 见 基 
本 正则 表达 式 、 扩 展 的 正则 表达 式 。 






































Perl 
种 通用 程序 设计 语言 ， 它 由 Larry Wall 于 1987 
EFR. Per 由 于 其 对 正则 表达 式 的 强大 支持 以 及 





























文本 处 理 能 力 而 闻名 。 见 http://www.perl.org。 


piece (片段 ) 
在 POSIX.1 的 术语 中 ， 为 正则 表达 式 的 一 部 分 ， 
通常 是 连接 起 来 的 。 参 见 POSIX。 





POSIX 


Unix 可 移植 操作 系统 接口 (Portable Operating 
System Interface for Unix)。 由 电子 电气 工程 师 协 
会 (IEEE) 制定 的 一 系列 有 关 Unix 的 标准 。 最 
近 的 正则 表达 式 POSIX 标准 是 POSIX.1-2008 ( 参 
见 http://standards.ieee.org/findstds/standard/1003.1- 
2008.html) 。 




















sed 

一 种 接受 正则 表达 式 并 对 文本 进行 转换 的 Unix 流 
编辑 器 。20 世纪 70 年 代 初 由 Lee McMahon 于 贝尔 
实验 室 开 发 。sed 的 一 个 示例 : sed -n 's/this/ 
that/g\! file.ext > new.ext。sed 的 上 选项 
表示 要 使 用 扩展 正则 表达 式 。 另 见 扩展 正则 表达 式 。 




















Unicode 

Unicode 是 一 个 将 世界 的 各 种 书写 系统 字符 进行 
编码 的 体系 。Unicode 中 的 每 个 字符 都 有 一 个 数 
值 代 码 点 。Unicode 支持 的 字符 超过 10 万 个 。 在 
正则 表达 式 中 ，Unicode 字符 可 指定 为 \uxxxx 
或 \x{xxxx}， 其 中 x 表示 一 个 范围 为 0-9、A-F 
(或 af) 的 十 六 进 制 数 ， 占 用 一 位 到 四 位 。 例 如 ， 
\u00E9 表示 字符 €， 即 小 写 拉 丁字 母 e 加 一 个 重 
音符 。 另 见 http://www.unicode.org。 
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VI 

Bill Joy 于 1976 年 开发 的 一 款 使 用 正则 表达 式 的 
Unix 编辑 器 。vim 编辑 器 是 vi 的 改良 版 本 ， 它 
最 初 由 Bram Moolenaar 开发 ( 见 http://www.vim. 
org)。 我 日 常 工作 中 通常 会 用 到 六 七 种 编辑 器 ， 但 
用 得 最 多 的 还 是 vim。 事 实 上 ， 如 果 我 不 幸 遭 遇 海 
难 流 落 到 充 岛 上 ， 但 还 可 以 选择 一 个 文本 编辑 器 ， 
我 肯定 会 选择 vim， 毫 无 疑问 。 














vim 
JL vie 


八进制 字符 (octal character) 

正则 表达 式 中 的 字符 可 以 使 用 八进制 表示 。 在 正 
则 表达 式 中 ， 八 进 制 形式 的 字符 通过 以 下 方法 指 
定 : [\oxxjvosxxr*， 其 中 x 表 示 1-9 范围 内 的 数 ， 
占用 一 位 或 两 位 。 例 如 ，\o 表示 字符 &， 小 写 拉 丁 
字母 e 外 加 一 个 重音 符 。 









































标记 符 (flag) 
见 修饰 符 。 


捕获 分 组 (capturing group) 
见 分 组 。 


出 现 约束 (occurrence constraint) 
见 量词 。 


代码 点 (code point) 





分 类 表达 式 (bracketed expression) 


方 括号 中 的 正则 表达 式 ， 如 [a-f] ， 即 为 a 到 f 


范围 内 的 小 写字 母 。 另 见 字符 组 。 





分 支 (branch) 
在 POSIX.1 的 术语 中 ， 表 示 正 则 表达 式 中 多 个 阐 
分 的 连接 。 另 见 POSIX, 








分 组 (group) 
分 组 将 正则 表达 式 原 子 组 合 放 入 一 对 括号 () 中 。 
在 grep 或 sed 等 应 用 程序 中 (不 使 用 -E)， 你 必须 
在 括号 前 加 一 个 反 斜 线 ， 就 像 \) 和 \ (。 分 组 有 
捕获 分 组 和 非 捕获 分 组 两 种 。 捕 获 分 组 将 捕获 的 
分 组 存储 在 内 存 中 以 便 再 次 使 用 ， 而 非 捕获 分 组 
不 会 存储 。 原 子 分 组 不 进行 回 渊 。 另 见 原子 分 组 。 












































工作 缓冲 区 (work buffer) 
见 模式 空间 。 


MARE (negative lookahead) 
La ae 


反 后 顾 (negative lookbehind) 
见 后 顾 。 


非 捕获 分 组 (non-capuring group) 

在 括号 中 不 被 捕获 ( 即 存储 于 内 存 以 便 将 来 使 用 ) 
的 分 组 。 非 捕获 分 组 的 语法 是 (? :pattern)。 男 
见 分 组 。 





后 顾 (lookbehind) 

一 种 正则 表达 式 ， 它 仅 在 另 一 个 指定 的 正则 表 
达 式 在 其 之 前 时 才 会 匹配 。 正 后 顾 使 用 语法 
regex(?<=regex)。 反 后 顾 表示 在 该 表达 式 之 
前 的 内 容 不 是 在 其 之 前 的 正则 表达 式 时 才 匹 配 。 
使 用 语法 regex (?<!regex)。 





























后 向 引用 (backreference) 
对 之 前 用 括号 捕获 的 正则 表达 式 内 容 进行 引用 ， 
其 形式 是 \1、\2 等 。 





环视 (lookaround) 
见 前 矣 、 后 顾 。 


回溯 (backtracking) 

逐个 字符 回 退 ， 逐 个 尝试 从 而 找到 成 功 的 匹配 。 
用 于 贪心 式 匹 配 ， 不 能 在 懒惰 式 或 者 占有 式 匹 配 
中 使 用 。 正 则 表达 式 处 理 器 数 千 次 尝试 匹配 耗费 
非常 多 的 计算 资源 会 导致 灾难 性 回溯 。 避 免 灾 难 
性 回溯 的 一 种 方法 就 是 使 用 原子 分 组 。 另 见 原 子 
分 组 、 AES WATER by ALA, 












































基本 正则 表达 式 (basic regular expression) 

正则 表达 式 的 一 种 早期 实现 方式 ， 较 为 落后 ， 多 
数 人 认为 它 已 经 过 时 。 一 般 简 称 为 BRE，BRE 要 
求 对 字符 转 义 后 才 可 作为 元 字符 使 用 ， 例 如 括号 
(\{ 和 \})。 另 见 扩 展 正 则 表达 式 。 











可 组 合 性 (composability) 

“一 种 模式 语言 (或 实际 的 程序 设计 语言 ) 提供 
些 原子 对 象 和 一 些 构造 方法 。 这 些 构造 方法 可 以 
用 来 将 原子 对 象 组 合 为 复合 对 象 ， 然 后 这 些 复合 
对 象 又 可 以 进一步 组 合 为 复合 对 象 。 语 言 的 可 组 合 
性 就 是 指 构造 的 多 种 方法 能 够 统一 适用 于 该 语言 
的 所 有 对 象 ， 无 论 是 原子 对 象 还 是 复合 对 象 …… 
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可 组 合 性 改善 了 易学 性 和 易 用 性 。 可 组 合 性 还 可 
能 改善 复杂 度 与 功能 之 间 的 关系 : 对 于 给 定 的 复 
杂 度 ， 语 言 的 组 合 性 越 强 ， 其 功能 就 越 强 大 。 Sl 
自 James Clark 的 “The Design of RELAX NG”, # 


见 http://www.thaiopensource.com/relaxng/design. 




















html#section:5, 


扩展 正则 表达 式 (extended regular expression) 
简称 ERE， 在 基本 正则 表达 式 BRE 的 基础 上 添加 
了 额外 的 功能 ， 例 如 ， 选 择 操作 (\|) 以 及 量词 
(如 ? 和 +)，egrep (extened grep) 支持 扩展 正则 
表达 式 ， 因 此 都 能 进行 以 上 操作 。IEEE POSIX 标 
准 1003.2-1992 对 这 些 新 特性 进行 了 描述 。grep 使 
用 -E 选 项 (就 和 使 用 egrep 一 样 ) 就 表示 使 用 扩 
展 正 则 表达 式 而 不 是 基本 正则 表达 式 。 另 见 选 择 
操作 、 基 本 正则 表达 式 、grep。 












































懒 情 式 匹 配 (lazy match) 

在 尝试 寻找 匹配 时 ， 懒 情 式 匹配 一 次 只 消耗 目标 
字符 串 的 一 个 字符 。 它 不 进行 回溯 。 另 见 回溯 、 贪 
SACE, 占有 式 匹配 。 














量词 (quantifier) 
设 定 在 尝试 匹配 时 正则 表达 式 会 出 现 的 次 数 。 一 
种 形式 是 括号 中 包含 一 个 整数 或 由 过 号 分 隔 的 一 
对 整数 ， 如 {3} 表示 表达 式 会 出 现 3 次 (对 于 使 
用 基本 正则 表达 式 的 旧 工 具 程序 ， 必 须 将 括号 转 
XL, 就 像 \{3\})。 









































其 他 的 量词 有 ? 〈 零 次 或 一 次 )、+ (一 次 或 多 次 )、 
* 〈 零 次 或 多 次 )。 量 词 也 为 限定 符 (bound) mf 
饰 符 (modifier)。 量 词 自身 是 贪心 式 的 。 此 外 还 有 
懒惰 量词 (如 {3}?) 和 占有 量词 (如 {3}+)。 另 
见 基 本 正则 表达 式 、 ASALE, MAALE, $ 
有 式 匹配 。 








零 宽 度 断言 (zero-width assertion) 
AE ALLE PA ATES AF. MU Als, 分 
别 匹 配 行 起 始 和 行 结束 。 








锚 位 符 (anchor) 

指定 行 或 字符 串 中 的 位 置 。 例 如 ， 脱 字符 (也 叫 
音调 符 ^) 表示 行 或 字符 串 的 起 始 ， 而 美元 符 ($) 
则 表示 行 或 字符 串 的 结束 。 





模式 空间 (pattern space) 
sed 程序 通常 逐 行 处 理 输入 内 容 。 在 处 理 每 一 行 
时 ， 该 行 的 内 容 就 被 放 入 模式 空间 中 ， 在 该 空间 











中 就 会 应 用 模式 。 这 也 被 称 为 工作 缓冲 区 (work 
buffer) 。 见 容纳 空间 、sed。 





匹配 (matching) 
正则 表达 式 会 在 文件 中 匹配 指定 的 模式 ， 然 后 根 
据 应 用 程序 要 求 触发 结果 。 











BURG (lookahead) 
一 种 正则 表达 式 ， 它 仅 在 另 一 个 指定 的 正则 表 
达 式 尾随 其 后 时 才 会 匹配 。 正 前 瞻 使 用 语法 
regex(?=regex) 。 反 前 瞻 表 示 尾 随 该 表达 式 的 
内 容 不 是 尾随 其 后 的 正则 表达 式 时 才 匹 配 。 使 用 


语法 regex (? !regex) o 



































取 反 操作 (negation) 
表示 一 个 正则 表达 式 不 匹配 给 定 的 模式 。 


容纳 缓冲 区 (hold buffer) 
见 容 纳 空 间 。 








容纳 空间 (hold space) 
sed 用 于 存储 一 行 或 多 行 以 便 进行 进一步 处 理 的 空 
间 。 也 称 为 容纳 缓冲 区 。 参 见 模式 空间 、sed。 





十 六 进 制 (hexadecimal) 

数字 0-9 和 字母 A-F 或 af 表示 的 基数 为 16 的 
计数 系统 。 例 如 ， 十 进 制 数 15 在 十 六 进 制 中 表示 
HF, m 16 在 十 六 进 制 中 表示 为 10。 





























贪心 式 匹 配 (greedy match) 

贪心 式 匹 配 会 尽 可 能 多 地 消耗 目标 字符 串 中 的 字 
符 ， 然 后 在 字符 串 中 回溯 来 尝试 寻找 匹配 。 见 回 
A, MAB AAS HALA. 


























限定 符 (bound) 


A. 


见 量词 (quantifier). 


修饰 符 (modifier) 

放 在 匹配 或 替换 模式 之 后 的 字符 ， 它 会 对 匹配 过 
程 进行 修改 。 例 如 ，i 修饰 符 会 将 匹配 变 为 不 区 分 
大 小 写 。 修 饰 符 也 称 为 标记 符 。 








选项 (option) 

允许 你 开启 或 关闭 选项 来 修改 匹配 内 容 。 例 如 ， 
(2i) 选项 表示 匹配 是 不 分 大 小 写 的 。 这 与 修饰 符 
功能 相似 ， 但 是 所 用 的 语法 不 同 。 另 见 修饰 符 。 








选择 操作 (alternation) 
用 坚 线 符 C) 将 几 个 正则 表达 式 分 隔 ， 表 示 
“或 ”操作 。 也 就 是 说 ， 由 一 个 或 多 个 | 分 隔 的 任 
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何 一 个 正则 表达 式 匹 配 即 可 。 在 某 些 应 用 程序 中 ， 
就 像 使 用 基本 正则 表达 式 (BRE) 的 grep 或 sed， 
则 需要 在 | 之 前 加 一 个 反 斜 线 符号 \| 。 另 见 基本 
正则 表达 式 。 








原子 (atom ) 
参见 元 字符 。 


原子 分 组 (atomic group) 
一 种 分 组 模式 ， 当 (?>…) 中 的 正则 表达 式 无 法 
配 时 ， 就 关闭 回溯 操作 。 另 见 回溯 、 分 组 。 








fe 





元 字符 (metacharacter) 
一 种 在 正则 表达 式 中 有 特殊 含义 的 字符 。 这 些 字 
4 JE NM DES hee PRs, Ss, I, Se 
{、}。 元 字符 也 称 为 原子 。 


灾难 性 回溯 (catastrophic backtracking) 
EWM, 








占有 式 匹 配 (possessive match) 

在 尝试 寻找 匹配 时 ， 占 有 式 匹配 一 次 直接 消耗 整 
PEAR, ETE BE. AWA, dA 
Ac, Wily A A, 














1EBUHS (positive lookahead) 
见 前 瞻 。 


正 后 顾 (positive lookbehind) 
见 后 顾 。 


正则 表达 式 (regular expression) 
一 种 经 过 特别 编写 的 字符 串 ， 在 应 用 或 











» 
RB 











序 中 使 用 时 可 以 匹配 其 他 的 字符 串 或 字符 串 集 
合 。20 世纪 50 年 代 ， 数 学 家 Stephen Kleene 
(1909—1994) 在 1952 4E. tH hi MY Introduction to 
Metamathematics 一 书 中 ， 讲 到 有 关 形 式 语 言 理论 
的 工作 时 首次 描述 了 正则 表达 式 。Ken Thompson 
等 人 有 关 QED 编辑 器 (在 运行 于 GE-635 上 的 通 
用 电气 分 时 系统 中 ) 的 工作 ， 以 及 20 世纪 70 年 
代 早 期 AT&T 贝尔 实验 室 的 Unix 操作 系统 中 其 他 
工具 程序 的 开发 推动 了 正则 表达 式 在 计算 机 领域 
的 发 展 。 







































































转 义 字符 (character escape) 
前 面 带 有 反 斜 线 的 字符 。 例 如 ，\t (水 平 制 表 
TF). \v (垂直 制 表 符 ) 和 \f ( 换 页 符 )。 








字符 集 (character set) 
见 字 符 组 。 


字符 组 (character class) 
通常 是 指 包 括 在 方 括号 中 的 一 组 字符 ， 例 如 
[a-bA-B0-9] 就 是 一 个 字符 组 ， 它 表示 ASCII 或 
者 基本 拉丁 (Low Basic Latin) 字符 集 范 围 内 的 所 
有 的 大 小 写字 符 以 及 数字 。 








字符 串 字面 值 (string literal) 
仅 从 文字 字面 上 解释 的 字符 串 ， 如 文字 字符 串 “It 
is an ancient Marinere”, 对比“[Ii]t[ Jis[ ].*nere.” 


这 类 字符 串 。 





字面 值 (literal) 
见 字符 串 字面 值 。 








$ (美元 符 ) 

用 来 匹配 行 尾 ，107 
用 做 元 字符 ，108 
用 法 示例 ，8，29 














() (括号 ) 

用 做 元 字符 ，108 

QED 正则 表达 式 特 性 ，108 
子 模式 ，45 

用 法 示例 ，6,8,41 
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( 星 号 ) 

用 做 元 字符 ，108 

QED 正则 表达 式 特性 ，107 
用 做 量词 ，7,23,45,74,126 





+ iz) 
用 做 元 字符 ，108 
用 做 量词 ，7,75,126 





- GEER) 元 字符 ，34 


. (点 号 ) 字符 

Hu. 22 

匹配 任意 字符 ，5 

用 做 元 字符 ，108 

QED 正则 表达 式 特性 ，107 











/ URHÉXTI), 31,88 
Vo (BFI) 字符 简写 形 ，20,109 


<> (GR). 87 


? (问号 ) 

匹配 标签 ，88 
用 做 元 字符 ，108 
Hii. 7, 75, 126 
用 法 示例 ，8 





[] Gee) 
用 做 元 字符 ，108 
用 法 示例 ，8,53 





\、( 反 和 斜 线 ) 元 字符 
描述 ，108 
对 元 字符 进行 转 义 ，30,108 
插入 新 行 ，36 

用 法 示例 ，8 














^( 脱 字符 ) 
匹配 行 起 始 或 行 结束 ，29-31 
用 做 元 字符 ，108 
字符 组 取 反 ，55 

QED 正则 表达 式 特性 ，107 
用 法 示例 ，8 
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. (FXI) 87,98 

() GERS) 
用 做 元 字符 ，6,108 
QED 正则 表达 式 特性 ，108 
用 法 示例 ，8,75 











| 〈 坚 线 符 ) 

用 做 元 字符 ，108 

QED 正则 表达 式 特性 ，108 
用 法 示例 ，8 





ASCII, 61 
AsciiDoc, 87 
Notepad++, 9 
Oniguruma, 104 
Oxygen, 9 
PCRE, 104 
pcregrep, 104 
peregrep, 34 
Perl, 103 
POSIX, 58 
POSIX 字符 组 ，58 
Python, 105 
RE2, 105 
Regexpal, 2 
TextMate, 9 
捕获 分 组 ，6 
代码 点 ，62 
单词 边界 ，31 
断言 ，29 

反 后 顾 ，85 
反 前 瞻 ，84 








方 括号 表达 式 ，53 
非 捕 获 分 组 ，49 
非 单词 边界 ，31 
分 组 ，41 

后 向 引用 ，6,46 
Ig, 74 

控制 字符 ，68 
WE, 74 
Wi], 77 
量词 ，6 

零 宽 度 断 言 ，29 
流 编辑 器 ，24 
锚 位 符 ，29 
命名 分 组 ，48 
贪心 ，23 
贪心 量词 ，75 
特 指 性 ，22 
选择 操作 ，41 
元 字符 ，4 
原子 分 组 ，50 
灾难 性 回 斋 ，50 
占有 ，74 

占有 量词 ，78 
正 后 顾 ，85 
正 前 瞻 ，81 
正则 表达 式 ，1 
转 义 字符 ，5 
子 模式 ，45 
字符 串 字 面值 ，3 
字符 集 ，4,56 
字符 属性 ，66 
字符 组 ，4 
字符 组 简写 式 ，5 
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作者 及 封面 简介 


关于 作者 


Michael Fitzgerald ÆR. MP], X O'Reilly 以 及 John Wiley&Sons 编写 过 十 余 
本 技术 图 书 ， 在 O'Reilly Network 也 发 表 过 很 多 文章 。 他 曾 是 针对 XML 的 RELAX 


ae 


NG 模式 语言 委员 会 成 员 。 


封面 动物 
本 书 封面 上 的 动物 是 果 果 。 


大 蝙蝠 亚 目 以 及 狐 蝠 科 蜗 蝠 称 为 果 蝠 、 狐 晤 、 原 始 果 晤 或 大 蜗 蝠 。 尽 管 有 “大 蜗 蝠 ” 
的 别名 ， 但 狐 蝠 科 成 员 在 体型 上 差异 很 大 ， 最 小 的 只 有 六 厘米 ， 也 有 重 达 两 磅 ， 展 
X5 TR. 


Fe WAS Sc CHE BEA) E. E EAR ZH HP TAT IBS FPR BEC TR E, CE ERR ER 
SEAT HR. MIPS LAE SEU BAI, Wl ERE A Pe HB A SESE 
E, WE dd GR AK. (World Bat Sanctuary) #f EBS HK 29 95% VA Oh 4t i eT AP 
RUPEE. HEURE UA AD x FS ZR LAE — AL I FE AE Fe, EFR A Wd HE 
(chiropterophily), ， 属 于 不 同 物种 个 体 为 了 彼此 利益 相互 影响 的 一 种 方式 。 


果 蝠 更 喜欢 温暖 的 热带 气候 ， 因 为 在 这 种 气候 中 水 果 和 花 基 容易 找到 ， 但 世界 各 地 
都 能 见 到 果 蝠 。 果 蝠 擅长 飞行 ， 但 落地 非常 租 朱 ;它们 落地 过 程 中 常常 撞 在 树 上 ， 
有 了 时候 为 了 停止 飞行 会 尽力 用 爪子 抓 住 树枝 。 这 就 让 人 们 误 以 为 它们 眼 盲 ， 而 事实 
上 果 晤 的 视力 是 所 有 蝙蝠 中 最 好 的 。 许 多 蝙蝠 依靠 回声 名 开 障 碍 物 ， 果 晤 凭借 视力 
以 及 出 色 的 嗅觉 来 定位 食物 和 进行 导航 。 
封面 图 片 来 自 Cassell 的 Natrual History, 
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Programming 





学 习 正 则 表达 式 


你 是 程序 员 ? 正 物色 一 本 学 习 正 则 表达 式 的 入 门 图 书 ? 茶 喜 ， 
《学 习 正 则 表达 式 》 非 常 适合 你 ! 本 书 提供 大 量 经 典 简 洁 的 示 
例 ， 从 零 开始 教 你 逐步 掌握 正则 表达 式 。 通 过 匹配 特定 单词 、 字 
符 和 模式 ， 读 者 很 快 就 可 以 自己 动手 使 用 正则 表达 式 匹 配 、 提 取 
和 转换 文本 。 


正则 表达 式 是 程序 员 必 备 的 强大 工具 ， 得 到 了 各 种 Unix 实 用 程 
序 ， 以 及 Perl、Java、JavaScript、C# 等 编程 语言 的 支持 。 读 完 
书 ， 你 会 对 正则 表达 式 的 常用 语法 了 然 于 胸 。 人 掌握 正则 表达 式 是 
提升 编程 效率 、 节 约 时 间 的 一 大 法 宝 。 本 书 主要 内 容 如 下 。 


m 正则 表达 式 的 基本 概念 和 原理 。 
m 在 命令 行 工具 和 各 种 编程 语言 中 使 用 正则 表达 式 。 


m 应 用 简单 方法 在 文本 中 查找 字符 串 ， 包 括 数值 、 
母 、Unicode 字 符 、 字 符 串 字面 值 。 


m 零 宽 度 断 言 和 环视 的 用 法 。 
m 如 何 使 用 分 组 、 后 向 引用 、 字 符 组 和 修饰 符 。 
m 使 用 正则 表达 式 为 纯 文本 添加 HTML5 标 记 。 
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欢迎 加 入 


图 灵 社 区 


最 前 沿 的 上 T 类 电子 书 发 售 平台 

















































































































































































































































































































电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同行 还 到 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业 
在 犹豫 稍 得 的 时 候 ， 图 灵 社 区 已 经 采取 实际 行动 务 紧 密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 
拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 
图 书 的 IT 类 出 版 商 ， 图 灵 社 区 目前 为 读者 提供 两 出 版 模式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 
种 DRM-free 的 阅读 体验 : 在 线 阅读 和 PDE。 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 

Da uus D 弥补 以 往 翻 译 版 技术 书 “ 出 版 即 过 时 ”的 缺 
HERAB, PRAT LEAVERS = ED 憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 
BAER, ENEA, MAAR T ER 。 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 各 
Mr (即使 有 的 书 纸 质 版 是 黑白 印刷 的 ) 。 读 者 还 tii 






































可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 





最 方便 的 开放 出 版 平台 最 直接 的 读者 交流 平台 






















































































到 灵 社 区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 
自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 勘误 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 
尔 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 
闵 免费 或 收费 的 形式 提供 给 读者 。 (收费 形式 须 赠 社区 银子 。 

经 过 图 灵 社 区 立项 评审 。) 这 极 大 地 降低 了 出 版 











































































































的 门槛 。 只 要 你 : 有 写作 的 意 愿 图 灵 社 区 就 能 帮 你 可 以 积极 参 : 34 区 经 常 开展 的 访谈 、 审读 、 评 
助 你 实现 这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 入 选 出 选 等 多 种 活动 ， 脱 取 积分 和 银子 ， 积 累 个 人 声 
版 计划 ， 同 时 出 版 纸 质 书 。 望 。 
图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马 
在 社区 公布 。 如 果 你 有 意 翻 译 哪 本 图 书 ， 欢 迎 

区 

















尔 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签 
AMAR RIE. Sk, 要 想 成 功 地 完成 一 本 
书 的 翻译 工作 ， 是 需要 有 坚强 的 角力 的 。 

































































